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Aufgabe der Erfindung und Anwendungsbereiche 

Die vorliegende Erfindung erstreckt sich auf das Gebiet von 
programmierbaren und insbesondere wahrend des Betriebes umpro- 
grammierbaren arithmetischen und/oder logischen Bausteinen 
(VPUs) mit Vielzahl von arithmetischen und/oder logischen Ein- 
heiten, deren Verschaltung ebenfalls programmierbar und wah- 
rend des Betriebes umprogrammierbar ist. Derartige logische 
Bausteine sind unter dem Oberbegriff FPGA von verschiedenen 
Firmen verftigbar. Weiterhin sind mehrere Patente veroffent- 
licht, die spezielle arithmetische Bausteine mit automatischer 
Datensynchronisation und verbesserter arithmetischen Datenver- 
arbeitung offenlegen. 

Samtliche beschriebene Bausteine besitzen eine zwei- oder 
mehrdimensionale Anordnung von logischen und/oder arithmeti- 
schen Einheiten (PAEs), die uber Bussysteme miteinander yer- 
schaltbar sind. 

Kennzeichnend fur die der Erfindung entsprechenden Bausteine 
ist, daB sie entweder die nachfolgend auf gelisteten Einheiten 
besitzen, oder zur erfindungsgemSBen Anwendung diese Einheiten 
programmiert oder (auch extern) hinzugeftigt . werden: 

1. mindestens eine Einheit (CT) zum Laden der Konf igurations- 
daten. 

2. PAEs. 

3. mindestens ein Interface (IOAG) zu einem oder mehreren 
Speichern und/oder peripheren Geraten. 

Aufgabe der Erfindung ist es, ein Prbgrammierverfahren zur 
Verfugung zu stellen,.. das ,es eririSglicht die beschriebenen Bau-v 
steine in gewohnlichen Hochsprachen effizient zu programmieren 
und dabei ; die Vorteile' der durch .die Vielzahl von Einheiten 
entstehende Parallelitat der beschriebenen 
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Bausteine weitgehend automatisch, vollstandig und effizient zu 
nutzen. 

Stand der Technik 

Bausteine der genannten Gattung werden zumeist unter 
Verwendung gew&hnlicher Datenf lussprachen programmiert . Dabei 
treten zwei grundlegende Probleme auf: 

1. Die Programmierung in Datenf lussprachen ist fUr 
Programmierer gewahnungsbedUrf tig, tief sequentielle Aufgaben 
lassen sich nur sehr umstandlich beschreiben. 

2. GroBe Applikationen und sequentielle Beschreibungen lassen 
sich mit den bestehenden Obersetzungsprograamen (Synthese- 
Tools) nur bedingt auf die gewUnschte Zieltechnologie abbilden 
(synthetisieren) . 

FQr gewChnlich werden Applikationen in mehrere 
Teilapplikationen partitioniert, die dann einzeln auf die 
Zieltechnologie synthetisiert Werden (Fig. 1), Die einzelnen 
Binarcodes werden dann auf jeweils einen Baustein geladen. 
Wesentliche Voraussetzung der Erfindung ist das in DE 44 16 
881 beschriebene Verfahren, das es ermOglicht, mehrere 
partitionierte Teilapplikationen innerhalb eines Bausteines zu 
nutzeri, indemi die zeitliche Abh&ngigkeit arialysiert wird und 
* tiber Steuersignale sequentiell die jeweils erforderlichen 
Teilapplikationen bei einer Ubergeordneten Ladeeinheit 
angefordert und von dieser daraufhin auf ,den Baustein geladen 
werden..- • v \'- 

. Existierende Synthese-Tools sind. nur bedingt in der Lag.e . 
Programm-ScKieifen auf Bausteine abzubiiden {Fig. 2 0201) . 1 
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Dabei wercien FOR-Schleif en 10202) als Primitiv-Schleif e haufig 
noch dadurch unterstUtzt, daB die Schleife vollkommen auf die 
Ressourcen des Zielbausteines ausgewalzt werden. 

WHILE-Schleifen (0203) besitzen im Gegensatz zu FOR-Schleifen 
keinen konstanten Abbruchswert . Vielmehr wird durch eine 
Bedingung evaluiert, wann der Schleifenabbruch stattfindet. 
Daher ist gewohnlicherweise (wenn die Bedingung nicht konstant 
ist) zur Synthesezeit nicht bekannt, wann die Schleife 
abbricht. Durch das dynamische Verhaiten kdnnen Synthese-Tools 
diese Schleifen nicht fest auf Hardware abgebildet d.h. auf 
einen Zielbaustein Ubertragen werden. 

Rekursionen sind mit Synthesewerkzeugen nach dem Stand der 
Technik grundsatzlich nicht auf Hardware abbildbar, wenn die 
Rekursionstiefe nicht zur Synthesezeit bekannt und damit 
konstant ist. Bei der Rekursion werden mit jeder neuen 
Rekursionsebene neue Ressourcen allokiert. Das wttrde bedeuten, 
dafi mit jeder Rekursionsebene neue Hardware zur Verftigung 
gestellt wercien muB, was aber dynamisch nicht moglich ist. 

Selbst einfache Grundstrukturen sind von Synthesetools nur 
dann abbildbar, wenn der Zielbaustein ausreichend grofi ist, 
d.h* ausreichende Ressourcen bietet. 

Einfache zeitliche Abhangigkeiten (0301) werden durch heutige 
Synthese-Tools nicht in mehrere Teilapplikationen 
partitioniert und sind deshalb nur ais Ganzes auf einen 
Zielbaustein ttbertragbar. 

Bedingte AusfUbrungen (03t)i) und Schleifen Uber Bedingungen 
(0303) sind ebenf alls nur. abbildbar , wenn. ausreichende, . 
Ressourcen auf dem Zielbaustein existieren. 

ErfindunasgemaBes Verfahren 

- 3 / 96.- 
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Durch das in DE 44 16 881 beschriebene Verfahren ist es 
mGglich Beciingungen zur Laufzeit innerhalb der 
Hardwarescrukturen der genannten Bausceine zu erkennen und 
derart dynamisch darauf zu reagierenr dafi die Funktion der 
Hardware entsprechend der eingetretenen Bedingung modifiziert 
wird, was im wesentlichen durch das Kor.f igurieren einer neuen 
Struktur geschieht. 

Ein wesentlicher Schritt in dem erf indungsgemaBen Verfahren 
ist die Partitionierung von Graphen (Applikationen) in 
zeitlich unabhangige Teilgraphen (Teilapplikationen) • 

Der Begriff n zeitliche Unabhangigkeit" wird damit definiert, 
dafi die Daten, die zwischen zwei Teilapplikationen libertragein 
werden durch einen Speicher, gleich welcher Ausgestaltung 
. (also auch mittels einfacher Register)/ entkoppelt werden* 
Dies ist besonders an den Stellen eines Graphen mOglich, an 
denen eine klare Schnittstelle mit einer begrenzten und 
mOglichst rainimalen Menge von Signalen zwischen den beiden 
Tei 1 graphen best eh t. 

Weiterhin sind besonders Stellen im Graphen geeignet, die 
folgende Merkmale aufweisen: 

1. Es befinden sich wenig Signale oder Variablen zwischen den 
Knoteh, 

2. Es werden wenig Daten Uber die Signale oder Variablen 
Ubertragen. 

. 3... Es-.gibt keine fUlckkopplungen, d.h.. keine Signale oder 
Variablen die umgekehrte Richtung . zu den Restlichen. laufen. .. 

Die. zeitliche^U^ in .grofcen Graphen. durch-; das.. . 

gezieite Einftigen von klar defiriierten und moglichste 
. einfachen. Schnittstelien zum Speichern von- .Daten in -.eineri ' ■. '■" 
Zwischenspeicher herbeigefUhrt werden (vgl. S r , in Fig. 4). 
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Schleifen weisen of tmals eine scarke zeitliche Unabhangigkeit 
zum restlichen Algorithmus auf , da sie lange Zeit ilber einer 
bestimmten Menge von (zumeist) in der Schleife lokalen 
Variablen arbeiten und nur beira Schleifeneintritt und beim 
Verlassen der Schleife eine Ubertragung der Operanden bzw. des 
Ergebnisses erfordern. 

Durch die zeitliche Unabhangigkeit wird erreicht, dafi nach der 
vollstandigen Ausftlhrung einer Teilapplikation die 
nachfolgende Teilapplikation geiaden werden kann, bhne dafl 
irgendwelche weiteren Abhangigkeiten oder EinflUsse auftreten. 
Beim Speichern der Daten in den genannten Speicher kann ein 
Status-Signal (Trigger, vgl. PACT08) generiert werden, das die 
Ubergeordneten Ladeeinheit zum Nachladen der nachsten 
Teilapplikation auffordert. Der Trigger kann bei der 
Verwendung von einfachen Registern als Speicher immer 
generiert werden, wenn das Register beschrieben wird. Bei der 
Verwendung von Speichern, i.b. von solchen die nach dem FIFO- 
Prinzip arbeiten, ist die Generierung des Triggers von 
mehreren Bedingungen abhangig. Folgende Bedingungen kbnnen 
beispielsweise einzeln oder kombiniert ein Trigger erzeugen: 

- Ergebnis-Speicher voll 

- Operanden-Speicher leer 

- keine neuen Operanden 

7. Beliebige Bedingung innerhalb der Teilapplikation, generiert 
durch z.B. 

* Vergleicher. (gleich, grdfier, etc.) 




* zahler (Oberlauf) ; . . 

* Addierer (Oberlauf). 



Eine Teilapplikation wird im folgenden auch Modul genannt, urn 
die Vers tandlichkeit aus. Sicrit der klassischeri Progranuaiefung 
zu erhdhen. Aus demselben Grund werden Signaleim folgenden 
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auch Variablen genannt. Dabei unterscheiden sich diese 
Variablen in einem Punkt wesentlich von herkommlichen 
Variablen: Jeder Variable ist ein Statussignal (Ready) 
zugeordnet, das anzeigt, ob diese Variable einen gultigen Wert 
besitzt. Wenn ein Signal einen gultigen (berechneteh) Wert 
besitzt, ist das Statussignal Ready; wenn das Signal Jceinen 
gultigen Wert besitzt (Berechnung noch nicht abgeschlossen) , 
ist das Statussignal Not_Ready. Das Prinzip ist ausfuhrlich in 
der Patentanraeldung P196 51 075.9 beschrieben. 

Zusanunenfassend kann den Triggern folgende Funktionen 
zugeordnet werden: 

1. Steuerung der Datenverarbeitung als Status einzelner PAEs 

2. Steuerung der Umkonf iguration der PAEs (zeitliche Abfolge 
der Teilapplikationen) 

Insbesondere die Abbruchkriterien von Schleifen (WHILE) und 
Rekursionen, sowie bedingte Sprtlnge in Teilapplikationen 
werden von Triggern realisiert. 

In Fall 1 werden die Trigger zwischen PAEs ausgetauscht, in 
Fall 2 werden die Trigger von den PAEs zur CT gesendet. 
Wesentlich an der Erfindung ist, daB der Obergang zwischen 
Fall 1 und 2 im wesentlicheri von der Anzahl der gerade 
laufenden Teilapplikationen in der Matrix von PAEs abhangt. 
Mit anderen Worten, Trigger werden zu den Teilapplikationen 
gesendet, die auf den PAEs aktuell ausgefuhrt werden. 1st eine 
Teilapplikation nicht konf iguriert, so werden die Trigger an 
die CT gesendet.. Wichtig dabei ist: Ware auch . diese 
Teilapplikation konf iguriert, so.wurden die entsprechenden 
•Trigger direkt an die entsprechenden PAEs gesendet werden . 

badurch ergibt sich 

Rechenleistung bei steigender PAE-GroBe ,. bzw. der . Kaskadierung .: 
mehrerer Matrizen aus PAEs. Es : Wi^ 7 aceiiv'.^^fig^atii»JMlt ' 
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mehr benGtigt, sondern die Trigger werden direkt an die nun 
bereits konf igurierten PAEs gesendet. 

Wave-Reconfiguration 

Durch eine geeignete Hardwarearchitektur (vgl. Fig. 10/11) ist 
es mbglich mehrere Module zu Uberlappen. D.h. mehrere Module 
sind gleichzeitig. in den PAEs vorkonf iguriert und es kann mit 
minimalem Zeitaufwand zwischen den Konf igurationen 
umgeschaltet werden, so dafl aus einer Menge von mehreren 
Konfigurationen pro PAE immer genau eine Konf iguration 
aktiviert ist. 

Wesentlich ist, dafl dabei in einer Menge von PAEs in die ein 
Modul A und B vorkonf iguriert ist, ein Teil der Menge mit 
einem Teil von A und eine anderer Teil der Menge gleichzeitig 
mit einem Teil B aktiviert sein kann. Dabei ist die Trennung 
der beiden Teile exakt durch die PAE gegeben, in der der 
Umschaltezustand zwischen A und B auftritt. Das bedeutet, dafl 
ausgehend von einem bestimmten Zeitpunkt bei alien PAEs bei 
denen vor diesem Zeitpunkt A zur AusfUhrung aktiviert war B 
aktiviert ist und. bei alien anderen PAEs nach diesem Zeitpunkt 
immer noch auf A aktiviert ist. Mit steigender Zeit wird bei 
immer mehr PAEs B aktiviert. 

Die Umschaltung erfolgt aufgrund von bestimmten Daten, 
Zustanden die sich aus der Berechnung der Daten ergeben oder . 
aufgrund beliebiger anderer Ereignisse, die beispielsweise von 
extern oder der CT generiert werden. 

Das bewirkt, dafl direkt nach Verarbeitung eines Datenpaketes 
zu einer anderen. Konf iguration . umgeschaltet werden kann. 
Gleichzeitig/Aliernativ kann. ein Signal ; {RECONFIG-TRIGGER) an.. 
den CT gesendet werden, das das Vorladen von neuen 
Konfigurationen durch deh CT bewirkt. Das Vorladen kann dabei 
auf anderen von der aktuellen Datehverarbeitung abhangigen 

- 7 / 96 - 
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Oder unabhangigen PAEs erfolgen. Durch eine Entkopplung der 
aktiven Konfiguration von den zur Unkonf iguration zur 
VerfUgung stehenden Konfigurationen (vgl. Fig. 10/11) k5nnen 
auch gerade arbeitende (aktive) PAEs,- insbesondere auch die 
PAE, die den RECONFIG-TRIGGER erzeugte, mit neuen 
Konfigurationen geladen werden. Dies ermbglicht eine mit der 
Datenverarbeitung tiberlappende Konfiguration. 

In Figur 13 ist das Grundprinzip der Wave-Reconfiguration 
(WRC) dargestellt. Dabei wird von einer Reihe von PAEs (PAE1- 
9) ausgegangen, durch die die Daten pipelineahnlich laufen. Es 
wird ausdrUcklich darauf hingewiesen, dafi WRC nicht auf 
Pipelines beschrankt ist und die Vernetzung und Gruppierung 
der PAEs jede beliebige Form annehmen kann. Die Darstellung 
wurde jedoch gewahlt um ein einf aches Beispiel zum besseren 
Verstandnis zu zeigen. 

In Fig. 13a lauft ein Datenpaket in die PAEI. Die PAE besitzt 
4 mSgliche Konfigurationen (A, F, H, C) , die durch eine 
geeignete Hardware (vgl. Fig. 10/11) wahlbar sind. Die 
Konfiguration F ist in in PAEI ftlr das aktuelle Datenpaket 
aktiviert (schraffiert dargestellt) . 

Im nachsten Takt lauft das Datenpakt nach PAE 2 und ein neues 
Datenpaket erscheint in PAEI. Auch in PAE 2 ist F aktiv. 
Zusammen mit dem Datenpaket erscheint ein Ereignis (tl) bei 
PAEI. Das Ergnis entsteht durch Eintreffen eines beliebigeri 
Ereignisses von aussen bei der PAE (z.B. eines Statusfiags 
Oder Triggers) oder wird innerhalb. der PAE durch die 
ausgefUhrte Berechnung generiert. 

In Fig. 13c wird in PAEI auf gruhd des Ereignisses (Tl) die 
Konfiguration . H /aJCtiv^ert^/^eichzei'tlg erscheint ein neues. 
Ereignis [t2), das im nachsten Takt (Fig. 13d) die. Aktivierung 
.von Konfiguration A b.ewirkti v v- • /"V.^-.-V ' ;*.. 
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In Fig. 13e trifft (t3) bei PAE1, die das Oberschreiben von F 
mit G bewirkt (Fig. 13f) . Dutch das Eintreffen von (t4) wird G 
aktiviert (Fig. 13g) . (T5) bewirkt das Laden von K anstelle 
von C {Fig 13h, i) und (t6) 12dt und startet F anstelle von H 
(Fig. 13j) . 

In den Figuren 13g*) bis 13j*) wird verdeutiicht, dafl beim 
Durchlaufen einer Wave-Reconfiguration nicht alle PAEs nach 
demselben Muster arbeiten mussen. Wie eine PAE von einer Wave- 
Reconfiguration konfiguriert wird, ist prinzipiell abhangig 
von ihrer eigenen Konf iguration. Hier soli dargestellt werden, 
daft PAE4 bis PAE6 derart konfiguriert sind, daB sie anders auf 
die Ereignisse reagieren, als die Ubrigen PAEs. Beispielsweise 
wird in Fig. 13g*) aufgrund von Ereignis f2 nicht A sondern H 
aktiviert (vgl. Fig. 13g) . Dasselbe gilt fUr 13h*) . Aufgrund 
von Ereignis f3 wird in Fig. 13i*) nicht G geladen, sondern 
die Konf iguration F bleibt besteheri und A bleibt aktiviert. In 
Fig. 13j*) ist bei PAE 7 angedeutet, daB Ereignis ?3 wieder das 
Laden von G ausiasen wird. In PAE4, bewirkt das Ereignis t4 
das Aktivieren von F anstatt der Konf iguration G (v$l. Tig. 
133) • 

In Fig. 13 bewegt sich eine Welle von Umkonf igurationen 
aufgrund von Ereignissen durch eine Menge von PAEs, die 2- 
oder mehrdimensional ausgestaltet sein kann. 
Es ist nicht zwingend notwendig, dafi eine einmal stattfindende 
Umkonf iguration durch .die gesamten Flufi hinweg stattfindet. . 
Beispielsweise k6nnte die' Umkcnf iguration mit der Aktivierung 
von A aufgrund des Ereignisses . (t2) nur lokal iriden PAEsl bis. 
3 und PAE7 stattfinden, wahrend in alien anderen PAEs 
weiterhin die : - konf iguration H aktiviert bleibt.. 
Mit anderen Worten: 

- 9 / 96 - 
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a) Es ist moglich, dafl ein Ereigniss nur lokal auftritt unci 
daher nur lokal eine Umaktivierung zur Folge hat, 

b) ein globales Ereignis, hat maglicherweise keine Auswirkung 
auf raanche PAEs; abhangig vom ausgefUhrten Algorithms. 

Bei den PAEs die nach <t 2 ) weiterhin H aktiviert halten, kann 
selbstverstandlich das Eintreffen des Ereignisses (T3) 
vollkommen andere Auswirkungen haben, (I) wie etwa das 
Aktivieren von C statt dem Laden von G, (ii) andererseits 
konnte (t3J auf diese PAEs auch gar keinen EinfluS haben. 



Dae ProzesBormnrfoi i 

Die in den folgenden Figuren gezeigten Graphen besitzen als 
Graphenknoten inuner in Modul, wobei davon ausgegangen wird, 
dafl oehrere Module auf einert Zieibaustein abgebildet werden 
konnen. Das heiflt, obwohl alle Module zeitlich voneinander 
unabhangig sind,.wird nur bei den Modulen eine Umkonfiguration 
durchgefuhrt, und/oder ein Datenspeicher eingefttgt, die mit 
einem vertikalen Strich und At markiert sind. Dieser Punkt 
wird Umkonfigurationszeitpunkt genannt. 

Der Umkonfigurationszeitpunkt ist abhangig von den bestimmten 
Daten oder den 2ustanden die sich aus der Verarbeitung der 
bestinmten Daten ergeben . 

Das bedeutet zusananenfassend: . ... 

•1. Grbfle Module konnen ah geeigneten Stellen partitioniert 

..werden. und in kleine zeitlich vprieinahder : uiiabhangige: Module .. 

zerlegt werden, die optimal in das Array aus PAEs passen. 

2. Bei kleinen : ModiileV die gemeihsam : auf . einen Zieibaustein 

abgebiidet werden konnen, Wird auf die zeitlicne 
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Unabhangigkeit verzichtet. Dadurch werden 

Konfigurationsschritte eingespart und die Datenverarbeitung 
beschleunigt . 

3. Die Umkonfigurationszeitpunkte werden entsprechend der 
Ressourcen der Zielbausteine positioniert . Dadurch ist eine 
beliebige Skalierung der Grapheniange gegeben. 

4. Module kfinnen Oberlagert konfiguriert werden. 

5, Die Umkonfiguration von Modulen wird durch die Daten selbst 
oder dem Ergebnis der Verarbeitung der Daten gesteuert. 

6, Die von den Modulen generierten Daten werden gespeichert 
und die zeitlich nachfclgenden Module lesen die Daten aus 
diesem Speicher aus und speichera die Ergebnisse wiederum in 
einen Speicher oder geben das Endergebnis an die Peripherie 
aus. 

Die Zustandsinformationen des Prozessonnodells 

Zur Bestiramung der Zustande innerhalb eines Graphen werden die 
Statusregister der einzelnen. Zellen (PAEs) Uber ein zusatzlich 
zum Datenbus (0801) existierendes, frei rout- und 
segmentierbares Status-Bussystem (0802) alien anderen 
Rechenwerken zur VerfUgung gestellt (Fig. 8b). Das bedeutet, 
daB eine Zelle (PAE X) die Statusinformation einer andern 
Zelle (PAE Y) evaluieren kanh und dement sprechend die Daten 
. yerarbeitet. Um den Unterschied zu bestehenden 

Parallelrechnersystemen zu verdeut lichen,, ist in Fig. 8a der 
Stand der Technik angegeben. Dabei ist ein 
Miiltiprbzessorsystein gezeigt, dessen Prozessbren Uber einen 
gemeinsamen Datenbus (0803) miteinander verbundeh sind. Ein . 
explizites Biissystem filr den syhchronen Austausch von Daten 
und Status existiert nicht. 

Mit anderen Worten ausgedrtlckt, stellt das Netzwerk der 
. Statussignaie . (08.02) ein. frei lind gezielt verteiltes 
Statusregister eines einzelnen herkbramlichen Prozessors (oder 
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mehrerer Prozessoren eines SMP-Computers) dar. Der Status 
jeder einzelnen ALU (bzw. jedes einzelnen Prozessors) und 
insbesondere jede einzelne Information des Status steht 
jeweils dem oder den ALUs (Prozessoren) 2U r Verfugung, die die 
Information benotigen. Dabei entsteht keine zusatzliche 
Programm- oder Kommunikationslauf zeit (abgesehen von den 
Signalllaufzeiten) urn die Informationen zwischen den ALUs 
(Prozessoren) auszutauschen. 

Abschlieflend soil angemerkt werden, dafi je nach Aufgabe sowohl 
der Datenfluflgraph, als auch der Kontrollfluflgraph 
entsprechend dem beschriebenen Verfahren behandelt werden 
kann. 

Virtual Machine Modell 

Die Grundlagen der Datenverarbeitung mit VPU-Bausteinen sind 
entsprechend der vorhergehenden Abschnitte hauptsachlich 
datenfluflorientiert. Urn sequentielle Programme mit 
ordentlicher Leistung abzuarbeiten, ist es jedoch notwendig 
ein sequentielles Datenverarbeitungsmodell zur VerfOgung zu 
haben. Dabei sind oftmals die Sequenzer in den einzelnen PAEs 
hicht ausreichend. 

Die Architektur von VPUs ermoglicht jedoch grundsatzlich den 
Aufbau von beliebig komplexen Sequenzern aus einzelnen PAEs. 
Das bedeUted: 

1. Es konnen komplexe Sequenzer kohfiguriert werden, die exakt 
den Anforderungen des Algorithmus entsprechen. 

2. per DatenfluQ kann durch entsprechende Konfiguration, exakt 
die Rechenschritte des Algorithmus reprasentieren. 

Dadurch kaiin eine virtueile Maschine auf VPUs impl emen tier t 
..werden, die insbesondere auch den::.s.equentiellen ^ Ahforderurigen . ; 
'eines : Algorit^s ^htspHcht:^: ; : • f "' 1 : 'V 
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Hauptvorteil der VPU-Architektur ist, dafi ein Algorithmus 
durch einen Compiler so zerteilt werden kann, daB die 
Datenfluflteile extrahiert werden dureh einen "optimalen" 
Datenflufl represent iert werden, indem ein angepaBter DatenfluB 
konfiguriert wird UND die sequentiellen Teile des Algorithmus 
durch eineri "optimalen" Sequenzer reprasentiert werden, indem 
ein angepaBter Sequenzer konfiguriert wird. Dabei kSnnen 
gleichzeitig mehrere Sequenzer und DatenflUsse auf einer VPU 
untergebracht werden, ausschliefilich abhangig von den zur 
VerfUgung stehenden Ressourcen. 

Durch die groBe Anzahl an PAEs entstehen im Betrieb innerhalb 
einer VPU sehr viele lokalen Zustande. Bei Taskwechseln Oder 
Unterprogramm-Aufrufen (Interrupts) miissen diese Zustande 
gesichert werden (vgl. PUSH/ POP bei Standardprozessoren) . Dies 
ist jedoch aufgrund der Menge an Zustanden nicht sinnvoll 
mSglich. 

Urn die Zustande auf eine handhabbare Menge zu reduzieren muB 
zwischen zwei Arten von Zustanden unterschieden werden: 
1. Zustandsinformationen des Maschinenraodeils (MACHINE-STATE) . 
Diese Zustandsinformationen sind hur innerhalb der 
Abarbeitung eines bestimmten Modules gtlltig und; werden auch 
nur lokal in den Sequenzern und Datenf lufleinheiten dieses 
. bestimmten Modules verwendet. D.h. diese MACHINE-STATEs 
reprasentieren die Zustande, die in Prozessoren nach dem 
Stand der Technik verdeckt innerhalb der Hardware ablaufen, 
implizit in den Befehlen und d€n Verarbeitungsschritten 
sind und nach Ablauf eines Befehles keine weitere 
Information fur nachfolgende Befehle beinhalten. Derartige 
, Zustande brauchen nicht gesichert : zu werden, Bedingung 
daftir ist, daB interrupts nur nach kompletter AusfUhrung 
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aller gerade aktiven Module durchgefiihrt werden. stehen 
Interrupts zur Ausfuhrung an, werden keine neuen Module 
geladen, sondern nur noch aktive abgearbeitet; ebenfalls 
werden den aktiven Modulen, soweit-es der Algorithmus 
zuiaJJt keine neuen Operanden mehr zugeftihrt. Dadurch wird 
ein Modul zu einer atomaren nicht unterbrechbaren Einheit, 
vergleichbar mit einer Instruktion eines Prozessors nach 
dem Stand der Technik. 
2. Zustande der Datenverarbeitung (DATA-STATE). Die 
datenbezogenen Zustande mtissen beim Auftreten eines 
Interrupts entsprechend den Prozessormodellen nach dem 
Stand der Technik gesichert und in den Speicher geschrieben 
werden. Das sind bestimmte notwendige Register und Flags 
Oder - entsprechend der Begriffe der VPU-Technologie - 
Trigger. 

Bei den DATA-STATEs kann die Handhabung je nach Algorithmus 
welter vereinfacht werden. Zwei grundlegende Strategien werden 
im Folgenden nahers erlautert: 
1. Mitlauf en . der Zustandsinformatibn 

Dabei werden alle relevanten und zu einem spateren Zeitpunkt 
benotigten Zustandsinformationen von einem Modul zum nachsten 
ubertragen, wie es in Pipelines oftmals standardmaflig 
implementiert ist. Die Zustandsinformationen werden dann 
zusammen mit den Daten implizit in einem Speicher abgelegt, 
sodafl die Zustande bei einem Abruf der Daten zugleich zur 
Verfugung stehen.. Ein expliziteis Handhaben der 
Zustandsinformationen i.b. mittels PUSH und POP entfallt 
dadurch, was je nach Algorithmus einerseits zu einer 
.wesentllchen Beschleunigung. der Abarbeitung und andererseits;. 
zu einer vereinfachten Programmierung fuhrt. 
Die Zus tandsinf orma ton : kann wahl weis^; entweder mit - dem 
jeweiligen Datenpaket gespeichert werden, oder nur im Falle 
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eines Interrupts gesichert und besonders gekennzeichnet 
werden. 

2. Sichern der Reentry Adresse 

Bei der Verarbeitung von grofien Datenraengen, die in einem 
Speicher abgelegt sind, ist kann es sinnvoli sein die Adresse 
mindestens einer der Operanden des gerade verarbeiteten 
Datenpaketes mit dem Datenpaket zusaramen durch die PAEs zu 
leiten. Dabei wird die Adresse nicht modif iziert sondern steht 
beim Schreiben des Datenpaketes in ein RAM als Pointer auf den 
letzten verarbeiteten Operanden zur VerfUgung. 
Dieser Pointer kann wahlweise entweder mit dem jeweiligen 
Datenpaket gespeichert werden, oder nur ixn Falle eines 
Interrupts gesichert und besonders gekennzeichnet Werden, 
Insbesondere, wenn samtliche Pointer auf die Operanden durch 
eine Adresse {Oder eine Gruppe von Adressen) berechnet werden 
kttnnen ist es sinnvoli nur eine Adresse (oder eine Gruppe von 
Adressen) zu sichern. 

w ULIW w - yy UCISC w "Modell 

FOr das Verst&ndnis dieses (einem Prozessor nach dem Stand der 
Technik sehr ahlichen) Modells ist eine Erweiterung der 
Betrachtungsweise der Architektur von VPUs erforderlich. Dabei 
dient das Virtual-Machine Modell als Grundlage* 
Das Array aus PAEs (PA) wird als in ihrer Architektur 
konfigurierbare Recheneinheit betrachtet- Der/die CT(s) 
stellen eine Ladeeinheit. (LOAD-UNIT) far Opcodes. .dar. Die 
IOAG(s) Ubernehmen das Businterface und/oder den Registersatz. 

: Diese Anordnung ermfiglicht zwei grundsatzliche 
Funktionsweisen, die im Betrieb gemischt verwendbar sind: 
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1. Eine Gruppe von PAEs (das kann auch eine PAE sein) wird zur 
AusfUhrung eines komplexen Befehls oder Befehlsfolge 
konfiguriert und danach werden die auf diesen Befehl bezogenen 
Daten (das kann auch ein einziges Datenwort sein) verarbeitet. 
Danach wird diese Gruppe umkonfiguriert, zur Abarbeitung des 
nachsten Befehles. Dabei kann sich die Grofie und Anordnung der 
Gruppe andern. GemaB den bereits besprochenen 
Partitionierungstechnologien obliegt es dem Compiler, 
moglichst optimale Gruppen zu schaffen. Durch den CT werden 
Gruppen als Befehle auf den Baustein "geladen", dadurch ist 
des Verfahren mit dem bekannten VLIW vergleichbar, nur dafi 
erheblich mehr Rechenwerke verwaltet werden UND die 
Vernetzungsstruktur zwischen den Rechenwerken ebenfalls vom 
Instruktionswort abgedeckt werden kann (Ultra Large 
Instruction Word » "ULIW"). Dadurch laflt sich ein sehr hoher 
Instruktion Level Parallelism (ILP) erreichen. (siehe auch Fig 
27). Ein Instruktionswort entspricht dabei einera Modul. 
Mehrere Module kdnnen gleichzeitig verarbeitet werden, sofern 
es die Abhangigkeit der Daten zulaflt und genugend Ressourcen 
auf dem Baustein frei sind. Wie bei VLIW-Befehlen wird far 
gewohnlich nach AusfUhren des Instruktionswortes sofort das 
nachste Instruktionswort geladen. Zur zeitlichen Optimierung 
ist es dabei. maglich das nachste Instruktionswort bereits 
wahrend der AusfUhrung vorzuladen (vgl. Fig. 10) .. Bei mehreren 
• moglichen nachsten InstruktionswOrten konnen mehrere 
vorgeladen werden und vor der AusfUhrung wird z.B. durch ein 
Triggersignal das . korrekte Instruktionswort ausgewahlt . (siehe 
Figur 4a B1/B2, Figur 15 ID C/ID K, Figur 36 A/B/C). 

2 ;. Eine G>uppe vpn . PAEs (das kann auch eine PAE sein) wird. zur 
AusfUhrung einef haufig gebrauchten Befehlsfolge konfiguriert. 
.Die paten, das. kann. auch hier ein einzelnes Datenwort . sein, 
werden bei Bedaff der Gruppe zugefUhrt und von der Gruppe 
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empfangen. Diese Gruppe bleibt ttber eine Vielzahl von Takten 
ohne Umkonfiguration bestehen. Vergieichbar ist diese 
Anordnung mit einem speziellen Rechenwerk in einem Prozessor 
nach dem Stand der Technik (z.B. MMX)*> das fQr Spezialaufgaben 
vorgesehen ist und nur bei Bedarf verwendet wird. Durch diesen 
Ansatz sind Spezialbefehle entsprechend des CISC-Prinzipes 
generierbar, mit dem Vorteil, daft diese Befehle 
anwendungsspezifisch geschaffen werden kfcnnen (Ultra-CISC = 
"UCISC"). 

Erweiterung des RDY/ACK-Protokolls (vgl. PACT 02) 
In PACT02 ist ein RDY/ACK-Standardprotokoll beschrieben, das 
die wesentlichen Anforderungen gemafi den Synchronisationen von 
DE 44 16 881 in Hinblick auf eine typische 

Datenfluftapplikation beschreibt. Nachteil des Protokolles ist, 
dafl lediglich Daten gesendet und der Empfang bestatigt werden 
kann. Der umgekehrte Fall, indem Daten angefordert. werden und 
das Versenden bestatigt wird (im Folgenden REQ/ACK genannt, 
ist zwar elektrisch mit demselbeh Zweidrahtprotokoll lbsbar, 
jedoch semantisch nicht erfaftt. Das gilt .insbesondere, wenn 
REQ/ACK und RDY/ACK gemischt betrieben werden. 
Daher wird die klare Unterscheidung der Protokolle eingefUhrt: 
RDY: Daten liegen beim Versender fur den Empf anger bereit 
REQ; Daten werden vom Empf anger beim Versender angefordert 
ACK: Allgemeine Bestatigung fur erfolgten Emfang oder. Versand 

(Prinzipiell kannten auch zwischen ACK fUr ein RDY und einem 
ACK fur ein REQ unterschieden werden, jedoch ist in den 
Protokollen .die Semahtik des ACKs fUr gewahnlich implizit) . 



Speichermodell 
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In VPUs konnen Speicher integriert werden (einer oder 
raehrere) , die ahnlich einer PAE angesprochen werden. Es wird 
im folgenden ein Speichermodell beschrieben, das gleichzeitig 
ein Interface zu externer Peripherie -und/oder externem 
Speicher darstellt: 

Ein VPU-interner Speicher mit PAE-ahnlichen Busf unktionen kann 
verschiederie Speichermodi darstellen: 

1. Stapdardspeicher (Random Access) 

2. Cache (als Erweiterung des Standardspeichers) 

3. Lookup-Tabelle 

4. FIFO 

5. LIFO (Stack) 

Dem Speicher ist ein steuerbares Interface zugeordnet, das 
Speicherbereiche wahlweise wort- oder blockweise schreibt oder 
liest. 

Dadurch ergeben sich folgende NutzungsmOglichkeiten: 

1. Entkopplung von Datenstrbmen (FIFO) 

2. Schneller Zugriff auf selektierte Speicherbereiche eines 
externen Speichers, was eine CacheShnliche Funktion 
darstellt (Standardspeicher, Lookup-Tabelle) 

3. Stack mit variierbarer Tiefe (LIFO) 

Dabei kann das Interface benutzt werden, es ist jedoch hicht 
zwingend notwendig, wenn die Daten z.B. ausschliefilich lokal 
in der VPU. verwendet werden und der Speicherplatz eines 
internen Speichers aiisreicht. 

Stack Model! 

Durch Verwendung des REQ/ACK-Protokolls und der internen 
Speicher . im. LIFCHMddus kann ein eihf acher S tack-Prdzessor : 
aufgebaut werden. Dabei werden temporare Daten von den PAEs 
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auf den Stack geschrieben und bei Bedarf von dem Stack 
geladen. Die hierfUr notwendigen Compilertechnologien sind 
hinreichend bekannt. Durch die variierbare Stacktiefe, die 
durch einen Datenaustausch des internen Speicher mit einem 
externen Speicher erreicht wird, kann der Stack beliebig grofi 
werden. 

Akkumulator Modell 

Jede PAE kann eine Recheneinheit nach dem Akkumulatorprinzip 
darstellen. Wie aus PACT 02 bekannt ist es mOglich die 
Ausgangsregister auf den Eingang der PAE rttck2ukoppeln. 
Dadurch entsteht ein Akkumulator nach dem Stand der Technik. 
In Verbindung mit dem Sequen2er nach Fig. 11 lassen sich 
einfache Akkumulator-Prozessoren aufbauen. 

Register Modell 

Durch Verwendung des REQ/ACK-Protokolls und der internen 
Speicher im Standardspeicher-Modus kann ein einfacher 
: Register-Prozessor auf gebaut werden. Dabei .werden die 
Registeradressen yon einer Gruppe von PAEs generiert/ wahrend 
eine andere Gruppe von PAEs die Verarbeitung der Daten 
Obernimmt . 

Arehitektur des Speichers 

Der Speicher besitzt zwei Interface, Ein erstes r das den 
Speicher mit dem Array verbindet und ein zweites, das den 
Speicher mit einer IO-Einheit verbindet. Zur Verbesserung der 
Zugriffszeit sollte der Speicher als Dual-Ported-RAM 
ausgestaltet sein, wodurch Sch.reib-. und Lesezugrif fen . 
unabhangig voneinander erfolgen konnen. 
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Das erste Interface ist Ubliches PAE-Interface (PAEI), das den 
Zugang zum Bussystem des Arrays gewShrleistet, sowie die 
Synchronisation und Triggerverarbeitung sicherstellt . Trigger 
kSnnen verwendet werden und verschiedene ZustSnde des 
Speichers anzuzeigen oder Aktionen im Speicher zu erzwingen, 
beispielsweise 

1. Empty/FUll: Beim Einsatz ais FIFO wird der FIFO-Zustand 
"voll", "fast-voll", "leer", "fast-leer" angezeit; 

2. Stack overrun/underrun: Beim Einsatz als Stack werden 
Uberlauf und Unterlauf des Stacks signalisiert; 

3. Cache hit/miss: Im Cache-Mode wird angezeigt, bb eine 
Adresse im Cache gefunden wurde; 

4. Cache flush: Durch einen Trigger wird das Schreiben des 
Caches in den externen RAM erzwungen. 

Dem PAE-Interface zugeordnet ist eine konfigurierbare 
Zustandsmaschine, die die verschiedenen Betriebsarten steuert. 
Der Zustandsmaschine ist ein zahler zugeordnet urn die Adressen 
im FIFO- und LIFO-Modus zu generieren. Die Adressen werden 
liber einen Multiplexer an den Speicher geflihrt, damit 
zusatzlich Adressen, die im Array generiert werden an den 
Speicher gefUhrt werden kOnnen. 

Das zweite Interface dient zum Anschlufi einer IO-Einheit 
(ZOZ) • Die IO-Einheit ist als konfigurierbarer Kontroller mit 
einem externen Interface ausgestaltet. Der Kontroller liest 
oder schreibt wort- oder blockweise baten in bzw. aus dem 
Speicher; Die Daten werden mit der IO-Einheit ausgetauscht . 
Weiterhin unterstutzt der Kontroller mittels eines 
zusatziichen TAG-Speichefs diverse Cache-Funktionen. 

IOZ und PAEI sind miteinander synchronisiert, sodafi keine 
. . . . Kollisibn d6r beideri Interface. eintritt. Die Synchronistation . 
ist je nach Betriebsart unterschiedlich, wahrend 
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beispielsweise im Standardspeicher- oder Stack-Mode immer nur 
entweder das IOI Oder das PAEI auf den gesamten Speicher 
zugreifen kann, ist im FIFO-Modus die Synchronisation 
zeilenweise, d.h. wahrend IOI auf eine Zeiie x zugreift, kann 
das PAEI auf jede andere Zeile ungleich x gleichzeitig 
zugreifen. 

Die IO-Einheit wird entsprechend der peripheren Erfordernisse 
ausgestaltet, beispielsweise: 

1. SDRAM Kontroller 

2. RDRAM Kontroller 

3. DSP-Bus Kontroller 

4. PCI Kontroller 

5. Serieller Kontroller (z.B. NGIO) 

6. Spezial Purpose Kontroller (SCSI, Ethernet, USB, etc.) 

Eine VPU kann beliebige Speicherelemente mit beliebigen 10- 
Einheiten besitzen. Dabei konnen unterschiedliche IO-Einheiten 
auf einer VPU implement iert sein. 

Funktionsweise: 

1. Standardspeicher 

1.1 intern/lokal 

Uber das PAEI werden Daten und Adressen mit dem Speicher 
ausgetauscht. Die adressierbare Speichergrbfie ist durch die 
Speichergrttfie beschrankt. 

1.2 extern/memory mapped window 

Ober das PAEI werden Daten und Adressen mit dem Speicher 
ausgetauscht. Im Kontroller . des IOI. ist eine Basisadresse im 
externen Speicher angegeben. Der Kontroller liest blockweise 
Daten vori der externen Speicheradr esse und schreibt. sle in den 
Speicher, wobei die internen und externen Adressen jeweils 
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inkrementiert (Oder dekrementiert) werden; so lange, bis der 
gesamte interne Speicher Obertragen wurde oder eine 
voreingestellte Grenze erreicht wurde. Das Array arbeitet nit 
den lokalen Daten, bis diese vom Kontroller wieder in den 
externen Speicher geschrieben werden. Das Schreiben verlauft 
analog dera beschriebenen Lesevorgang. 
Das Lesen. und Schreiben durch den Kontroller kann 

a) durch Trigger angestoBen werden oder 

b) durch einen Zugriff des Arrays auf eine nicht lokal 
gespeicherte Adresse. Greift das Array auf eine derartige 
Adresse zu, wird zunachst der interne Speicher in den externen 
geschrieben und danach der Speicherblock um die gewunschte 
Adresse nachgeladen. 

Diese Betriebsart ist besonders fUr die Implemehtierung eines 
Registersatzes fur einen Registerprozessor interessant. Durch 
einen Trigger kann in diesera Fall das Push/Pop des 
Registersatzes mit dem externen Speicher fur einen Taskwechsel 
oder eine Kontextumschaltung realisiert werden. 

1.3 extern/lookup table 

Die Lookup Tabellen Funktion ist eine Vereinfachung von 1.2. 
Dabei werden die Daten entweder einmal oder mehrmals durch 
einen CT-Aufruf oder einen Trigger vom externen RAM in den 
internen gelesen. Das Array liest Daten aus dem internen 
• Speicher, schreibt jedoch keine Daten in den internen 
Speicher. Die Basisadresse im externen Speicher ist im 
Kontroller entweder durch. die CT oder das Array gespeichert 
und kann zur Laufzeit verandert werden. Das laden aus dem 
externen Speicher wird entweder von der CT oder durch einen 
Trigger aus dem Array ausgelost. und kann ebenfalls zur 
Laufzeit geschehen. ' 

1.4 extern/cached 
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In diesem Modus greift das Array wahlweise auf den Speicher 
zu. Der Speicher arbeitet wie ein Cache-Speicher flir den 
externen Speicher nach dem Stand der Technik. Durch einen 
Trigger aus dem Array Oder durch die -CT kann des leeren des 
Caches (d.h. das vollstandige Schreiben des Caches in den 
externen Speicher) hervorgerufen werden. 

2. FIFO 

Der FIFO-Modus wird Ublicherweise verwendet, wenn Datenstrttme 
von extern an die VPU geftthrt werden. Dann dient der FIFO als 
Entkopplung zwischen der externen Datenverarbeitung und der 
VPU-internen Datenverarbeitung, derart da£ entweder von extern 
auf den FIFO geschrieben wird und von der VPU gelesen oder 
genau umgekehrt. Die Zustande des FIFOs werden durch Trigger 
zum Array und ggf . auch nach extern signalisiert. Der FIFO 
selbst wird nach dem Stand der Technik mit unterschiedlichen 
Schreib- und Lesezeigern implement iert . 

3. Stack/intern 

Durch ein Adressregister wird ein interner Stack aufgebaut. 
Bei jedem Schreibzugrif f auf den Speicher durch das Array wird 
das Register je nach Mode <a) inkrementiert (b) dekrementiert. 
Bei Lesezugriffen vom Array aus wird des Register umgekehrt 
(a) dekrementiert und (b) inkrementiert- Das Register stellt 
fur jeden Zugriff die erforderliche Adresse zur VerfUgung. Der 
Stack ist durch die GrOfle des Speichers begrenzt. Fehler 
(Uberlauf/Unterlauf) werden durch Trigger angezeigt. 

4. Stack/extern * . ~~ 

Sofern der interne Speicher zu. klein fUr den Aufbau eines 
Stacks ist r kann er in den externen Speicher ausgelagert 
werden. Dazu besteht im Kontroller ein AdresszShler fUr die 
externe Stackadresse. Wird eine bestimmte Menge an Eintragen 
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im internen Stack uberschritten, wird blockweise eine Anzahl 
von Eintragen auf den extemen Stack geschrieben. Der stack 
wird von Ende her, also vom altesten Eintrag aus nach extern 
geschrieben, wobei eine Menge von neuesten Eintragen nicht 
nach extern geschrieben wird, sondern intern verbleibt. Der 
externe Adresszahler (ERC). wird zeilenweise modifiziert. 

Nachdem Platz im internen Stack geschaffen wurde mufl der 
verbleibende Stack-Irihalt an den Beginn des Stacks bewegt 
werden, die interne Stackadresse wird entsprechend angepaflt. 

Eine effizientere Variante ist des Auslegen des Stacks als 

Ringspeicher (vgl. PACT04) . Ein interner Adresszahler wird 

durch das Hinzufilgen oder Entfernen von Stackeintragen 

modifiziert. Sobald der interne Adresszahler (IAC) am oberen 

Ende des Speichers uberschreitet, zeigt er auf die unterste 

Adresse. Unterschreitet der IAC die unterste Adresse, zeigt er 

auf die oberste. Ein zusatzlicher zahler (FC) zeigt den 

Ftlllstand des Speichers an, d.h. mit jedem geschriebenen Wort 

wird der Zahler inkrementiert, mit jedem gelesenen 

dekrementiert. Anhand des FC ist erkennbar, wann der Speicher 

leer, bzw. voll ist. Diese Technoiogie ist von FIFOs bekannt. 

Wird. damit ein Block in den extemen Speicher geschrieben, 

reicht die Anpassung des FC urn den Stack zu aktualisieren. Ein 

externer Adresszahler (EAC) zeigt immer auf den altesten ia 

internen. Speicher befindlichen Eintrag und befindet sich damit 

an dem IAC entgegengesetzten Ende des Stacks. Der EAC wird . 
modifiziert, wenn 

(a) Daten auf den externe'n Stack geschrieben werden, dann 
lauft er in Richtung des IAC, 

(b) Daten vom externen Stack geleseri" werden, dann entfernt er 
sich vom. IAC. 
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Durch Oberwachung des FC wird sichergestellt, daB IAC und EAC 
nicht kollidieren. 

Der ERC wird entsprechend der externen Stackoperation (Auf- 
oder Abbau) modif iziert. 

MMU 

Dem externen Speicherinterface kann eine MMU 2ugeordnet 
werden, die zwei Funktionen erf till t: 

1. Umrechnung der internen Adressen auf externe Adressen zur 
Untersttitzung moderner Betriebsysteme 

2. Oberwachung der Zugriffe auf externe Adressen, z.B. 
generieren eines Fehlersignales als Trigger, wenn der externe 
Stack Ober- oder unterlauft. 

Compiler 

Das erfindungsgemafie Programmierprinzip der VPU-Technologie 
besteht darin, sequentiellen Kode zu separieren und in 
mSglichst viele kleine und unabhangige Teilalgorithmen zu 
zerlegen, wahrend die Teilalgorithmen des Datenf luAcodes 
direkt auf die VPU abgebildet wird. 

Trennuncr zwischen VPU- und Standart-Kode 
Innerhalb einer Sprache nach.den Stand der Technik, 
reprasentativ fur alle mbglichen Compiler (Pascal, Java, 
Fortran* etc) soil C++ im weitereh verwendet werden, kann eine 
spezielle Erweiterung (VC - Vpu C) definiert werden, die die 
Sprachkonstrukte und Typen enthait, die besonders gut auf eine 

. VPU-Technologie abbildbar sind. VCs dUrfen yoro Programmierer 
nur innerhalb von Proceduren oder Functionen verwendet werden, 

. di^ keine andereh Konstrukte oder Typen verwendeh.. biese 
Proceduren und Functionen sind direkt auf die VPU abbildbar 
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und laufen besonders effizient ab. Der Compiler extrahiert die 
VC im Praprozessor und gibt sie direkt an das VC-Backend- 
Processing (VCBP) weiter. 

Extraktion des pa rallelisierbaren Compiler-Kodes 
Im nachsten Schritt analysiert der Compiler die restlichen C++ 
Codes und extrahiert die Teile (MC « mappable C) , die gut 
parallelisierbar und ohne den Einsatz von Sequenzern auf die 
VPU-Technologie abbildbar sind. Jedes einzelne MC wird in ein 
virtuelles Array plaziert und geroutet. Danach wird der 
Platzbedarf, sowie die zu erwartende Performance analysiert. 
Dazu wird das VCBP aufgerufen und die einzelnen MC werden 
zusammen mit den VC, die in jedem Fall abgebildet werden, 
partitioniert. 

Die MCs, deren VPU-Implementierung den hachsten Leistungs- 
Zuwachs erzielen werden ttbernommen, die restlichen werden als 
C++ an die nachste Compilerstufe weitergereicht. 

Optimierender Sequenzer Generator 

Diese Compilerstufe ist je nach Architektur des VPU-Systems 
unterschiedlich implementierbar : 

1. VPU ohne Sequenzer und externer Prozessor 
samtliche verbleibenden C++ Kodes werden fUr den externen 
Prozessor compiliert. 

2. N^r VPU mit Sequenzer 

2.1 Sequenzer in den PAEs 

Samtliche verbleibenden C++ Kodes'werden fttr die Sequenzer der 
PAEs compiliert. 

2.2 Konfigurierbare Sequenzer im Array 

Per verbleibende C++ Code Wird fur jfrdes ^ iinabhangige Modul 
analysiert. Die jeweils am best en geeignete Seguenzer-Variante 
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wird aus einer Datenbank ausgewahlt und als VC-Code (SVC) 
abgelegt. Dieser Schritt ist meist iterativ, d.h. eine 
Sequenzer-Variante wird ausgewahlt, der Code wird compiliert, 
analysiert und mit dem compiiierten eode anderer Sequenzer- 
Varianten verglichen. Let2tlich wird der Objectcode (SVCO) des 
C++ Codes fUr den gewShlten SVC generiert. 
2.3 sowohl 2.1 als auch 2.2 werden verwendet 
Die Funktionsweise entspricht der von 2.2. FUr die Sequenzer 
in den PAEs bestehen besondere statische Sequenzer-Modelle in 
der Datenbank. 

3. VPU mit Sequenzer und externer Prozessor 
Auch diese Funktionsweise entspricht 2.2. FQr den externen 
Prozessor existieren besondere statische Sequenzer-Modelle in 
der Datenbank. 

Linker 

Der Linker verbindet die einzeinen Module (VC, MC, SVC und 
SVCO) zu eiriem ausftihrbareh Programra. Dazu verwendet er das 
VCBP um die einzeinen Module zu plazieren, zu routen und die 
zeitliche Partitionierung festzulegen. Der Linker fUgt 
ebenfalls die Kommunikationsstrukturen zwischen den einzeinen 
Modulen hinzu und fUgt gegebenenfalls Register und Speicher 
ein. Aufgrund einer Analyse der Kontrollstrukturen und 
Abhangigkeiten der einzeinen Module werden Strukturen zum 
Speichern der internen Zustande des Arrays und der Sequenzer 
ftlr den Fall einer Reconfiguration hinzugefUgt. 

Bemerkunqen zu den Prozessbnnodellen 

Die verwendefen Maschinehmodell kbnnen innerhalb einer VPU. 
beliebig kombiniert werden. Auch innerhalb eines Algorithmus 
kann je nach dem; welches Modell optimal ist,/ ziwischen den 
Modellen gewechselt werden. 
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Wird einem Register-Prozessor ein weiterer Speicher zugefQgt, 
von dem die Operanden gelesen werden und in den die Ergebnisse 
geschrieben werden, kann eine Load/Store-Prozessor aufgebaut 
werden. Dabei kdnnen mehrere verschiedene Speicher zugeordnet 
werden, indent die einzelnen Operanden und das Ergebnis 
getrennt behandelt wird. 

Diese Speicher arbeiten dann quasi als Load/Store-Einheit und 
stellen eine Art Cache fur den externen Speicher dar. Die 
Adressen werden durch von der Datenverarbeitung separierte 
PAEs berechnet. 



Pointer Reordering 

Hochsprachen wie C/C++ verwenden haufig Pointer, die sehr 
schlecht durch Pipelines gehandhabt werden konnen. Wenn ein 
Pointer erst direkt vor dem Verwenden der Datenstrukturen auf 
die er zeigt, berechnet wird, kann haufig die Pipeline nicht 
schnell genug gefullt werden und die Verarbeitung wird 
speziell in VPUs ineffizient. 

Sicherlich ist es sinnvoli bei der Programmierung von VPUs 
mc-glichst keine Pointer zu verwenden, jedoch ist das oftmals 
nicht mbglich. 

Die Losung ist, die Pointerstrukturen durch den Compiler so 
umzusortieren, dafi die Pointeradressen moglichst lange vor 
deren Verwendung berechnet werden. Gleichzeitig sollte es 
moglichst wenig direkte Abhangigkeiten zwischen einem Pointer 
und den Daten auf die er zeigt geben. 

Erweiterunqen dar PAEs (geaenub ar P196 51 075.9 und P196 Si 
846.2) : . ' .'v.;- " v ' " '' 
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Durch P196 51 075.9 und P196 54 846.2 ist der Stand der 
Technik in Bezug auf die Konfigurationseigenschaften von 
Zellen (PAEs) definiert. 

Dabei soli auf zwei Eigenschaf ten ei-ngegangen werden: 

1. Einer PAE (0903) ist gemafi P196 51 075.9 ein Satz von 
Konfigurationsregistern (0904) zugeordnet, der eine 
Konfiguration beinhaltet (Fig. 9a). 

2. Eine Gruppe von PAEs (0902) kann gemafi P196 54 846.2 auf 
einen Speicher zum Speichern oder Lesen von Daten zugreifen 
(Fig. 9b) 

Aufgabe ist es, 

a) ein Verfahren zu schaffen, das das Umkonfigurieren von PAEs 
beschleunigt und zeitlich von der Ubergeordneten Ladeeinheit 
entkoppelt, und 

b) das Verfahren so auszulegen, daB gleichzeitig die 
Mfiglichkeit geschaffen wird Uber mehrere Konf igurationen zu 
sequenzen, und 

c) gleichzeitig mehrere Konf igurationen in einer PAE zu 
halten, von denen immer eine aktiviert ist und zwischen 
verschiedenen Konf igurationen schnell gewechselt werden kann. 

EnUcopplung der Konfigurationsregister 

Das Konfigurationsregister Wird von der Ubergeordneten 
Ladeeinheit (CT) entkoppelt (Fig. 10) , indem ein Satz von 
mehreren Konfigurationsregistern (1001) verwendet wird. Immer 
genau eines der Konfigurationsregister bestimmt selektiv die 
Funktion der PAE. Die Auswahl des.aktiven Registers wird liber 
einen Multiplexer (1002) "durchgeftthrt . In jedes der 
Konfigurationsregister kann die CT beliebig schreiben, sofern 
dieses nicht die aktuelle Konfiguration der PAE bestinunt, d;h. 
aktiv ist. Pas Schreiben auf das aktive Register, ist. 
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prinzipiell mGglich, dazu stehen die in PACT10 beschriebenen 
Verfahren zur VerfUgung. 

Welches Konf igurationsregister von 1002 selektiert wird kann 
durch verschiedene Quellen bes timmt werden: 

1. Ein" beliebiges Status-Signal oder eine Gruppe beliebiger 
Status-Signale, die iiber ein Bussystem (0802) an 1002 gefUhrt 
werden (Fig.. 10a). Die Status-Signale werden dabei von 
beliebigen PAEs generiert oder durch externe Anschlttsse des 
Bausteins zur VerfUgung gestellt (vgl. Fig. 8). 

2. Das Status-Signal der PAE, die von 1001/1002 konfiguriert 
wird, dient zur Selektion (Fig. 10b) . 

3. Ein von der Ubergeordneten CT generiertes Signal dient zur 
Selektion (Fig. 10c) • 

Dabei ist es mtfglich wahlweise die eingehenden Signale (1003) 
mittels eines Registers ftir einen bestimmten Zeitraum zu 
speichern und alternativ und wahlweise abzurufen. 

Durch den Einsatz mehrere Register wird die CT zeitlich 
entkoppelt. Das bedeutet, die CT kann mehrere Konf igurationen 
"vorladen", ohne daA eine direkte zeitliche Abhangigkeit 
besteht. 

Lediglich wenn das selektierte/aktivierte Register in 1001 
noch nicht geladen ist, wird mit der Konfiguration der PAE so 
lange gewartet, bis die CT das Register geladen hat. Urn 
festzustellen, ob ein Register eine gUltige Information 
besitzt kann beispielsweise ein "Valid-Bit" (1004) pro 
Register eingeftthrt werden/ das von der CT gesetzt wird. Ist 
0906 bei einem selektierten Register nicht gesetzt, wird tiber 
ein Signal die CT zum schinellstm5glichen Konfigurieren des 
. Registers aufgefordert. 

Pas in Jig J 10 bes chr i/eb^ iu eineiu 

Sequenzer erweiterbar (Fig. 11) . Dazu wird ein Sequenzer mit 
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Instruktionsdekoder (1101) zur Ansteuerung der 
Selektionssignale des Multiplexers (1002) verwendet. Der 
Sequenzer bestimmt dabei abhangig von der aktuell selektierten 
Konfiguration (1102) und einer zusatrzlichen Statusinformation 
(1103/1104) die nachste zu selektierende Konfiguration. Die 
die Statusinformation kann 

(a) der Status der Status-Signal der PAE, die von 1001/1002 
konfiguriert wird sein (Fig. 11a) 

(b) ein beliebiges liber 0802 zugefuhrtes Statussignal sein 
(Fig. lib) 

(c) eine Kombination aus (a) und (b) sein. 

1001 kann auch als Speicher ausgestaltet sein, wobei anstatt 

1002 ein Befehl von 1101 adressiert wird. Die Adressierung ist 
dabei abhangig vom Befehl selbst und von einem Statusregister. 
Insoweit entspricht der Aufbau einer "von Neumann" Maschine, 
mit dem Unterschied, 

(a) der universellen Einsetzbarkeit, also den Sequenzer nicht 
zu verwenden (vgl. Fig. 10) 

(b) dafi das Statussignal nicht von dem dem Sequenzer 
zugeordneten Rechenwerk (PAE) generiert werden muB, sondern 
von einem beleibigen anderen Rechenwerk stammen kann (vgl. 
Fig. lib) . 

Wichtig ist, daB der Sequenzer Sprllnge, insbesondere auch 
bedingte SprUnge, innerhalb von 1001 ausfUhren kann. 

Ein weiteres zusatzliches Oder alternatives Verfahren (Fig. 
12) zum Aufbau yon Sequenzern innerhalb. von VPUs ist die 
Verwendung der internen Datenspeicher (1201, 0901) zum 
Speichern der Konf igiaratibnsinformation. "flir eirie PAE pder eine 
Gruppe von PAEs. Dabei wird der Datenausgang eines Speichers 
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auf einen Konfigurationseingang oder Dateneingang einer PAE 
Oder mehrer PAEs geschaltet (1202). Die Adresse . (1203) far 
1201 kann dabei von derselben PAE/denselben PAEs oder einer 
Oder mehreren beliebigen anderen generiert werden. 

Bei diesem Verfahren 1st der Sequenzer nicht fest 
implement.iert, sondern wird durch eine PAE oder eine Gruppe 
von PAEs nachgebildet. Die internen Speicher konnen Programme 
aus den externen Speichem nachladen (vgl. erfindungsgemafles 
Speichersystem) . 

Zur Speicherung von lokalen Daten (z.B. fur iterative 
Berechnungen una als Register fur einen Sequenzer) wird die 
PAE alt einem zusatzlichen Registersatz versehen, dessen 
einzelne Register entweder durch die Konfiguration bestimmt, 
zur ALU gefuhrt oder von der ALU beschrieben werden; oder 
durch den Befehlssatz eines implementierten Sequenzers frei 
benutzt werden. konnen (Register Mode) . Ebenfalls kann eines 
der Register als Akkumulator (Akkumulator Mode) verwendet 
werden. Wird die PAE als vollwertige. Maschine verwendet, 1st 
es sinnvoll eines der Register als Adresszahler fur externe 
Datenadressen zu verwenden. 

Zur Verwaltung von Stacks und Akkumulatoren aufierhalb der PAE 

(z.B. in den erf indungsgemaflen Speichem) wird das bereits 
beschriebene RDY/ACK REQ/ ACK S ynchroni s t ionsmode 1 1 verwendet . 

PAEs nach dem Stand der. Technik (vgl. PACT02) sind. zur 
Verarbeitung.von bit-weisen Operationen schlecht geeignet, 
sofern die integrierte ALU bit-Operationen nicht besonders 
unterstutzt/ bzw. schmai '(i-< 2-, 4-bit breit) ausgelegt ist. 
Di6 Y ?" rbeitung . yon : ein2el nen Bits oder Signalen kann. ...... 

effizient 'gewahfieistet , indem der ALU-Kern ciurch einen FPGA- 
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Kern (LC) ersetzt wird, der konf igurierbar logische 
Operationen durchftihrt. Der LC ist dabei in seiner Funktion 
und internen Vernetzung frei konfigurierbar. Es konnen LC nach 
deiu Stand der Technik eingesetzt werden. Fur bestimrote 
Operationen ist es sinnvoll dem LC intern einen Speicher 
zuzuordnen. Die Interface-Baugruppen zwischen FC und dem 
Bussystem des Arrays werden nur geringfiigig an den FC 
angepafit/ bleiben aber grundlegend bestehen. 2ur flexibleren 
Gestaltung des Zeitverhaltens des FC ist es jedoch sinnvoll, 
die Register in den Inter face-Baugruppen abschaltbar zu 
gestalten. 
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Figuren 

In Fig. 4a sind einige grundlegenden Eigenschaften des 
erfindungsgemaflen Verfahrens dargestellt: 

Die Module des Types A sind zu einer Gruppe zusammengefaBt und 
besitzen am Ende einen bedingten Sprung, entweder nach Bl Oder 
B2. An dieser Position (0401) ist ein Urakonf igurationspunkt 
eingefttgt, da es sinnvoll ist die Zweige des bedingten 
Sprunges als jeweils eine Gruppe zu betrachten (Fall l) . 
WUrden dagegen beide Zweige von B (Bl und B2) zusatzlich 
zusammen rait A auf den Zielbaustein passen (Fall 2), ware es 
sinnvoll nur einen Umkonfigurationspunkt bei 0402 einzufligen, 
da dadurch die Zahl der Konf igurationen verringert wird und 
sich die Verarbeitungsgeschwindigkeit erhOht. Beide Zweige (Bl 
und B2) springen bei 0402 nach C. 

Die Konfiguration der Zellen auf dem Zielbaustein ist in Fig. 
4b schematisch dargestellt. Dabei werden die Funktionen der 
einzelnen Graphenknoten auf die Zellen des Zielbausteins 
abgebildet. Jeweils eine Zeile stellt eine: Konfiguration dar. 
Die gestrichelten Pfeile bei einem Zeilenwechsel zeigen eine 
Umkonfiguration an. S n 1st eine datenspeichernde Zelle, von 
beliebiger Ausgestaltung (Register, Speicher, etc.). Dabei ist 
S n l ein Speicher, der Daten entgegennimrat und S a O ein Speicher 
der Daten ausgibt. Der Speicher S n ist fUr gleiche n jeweils 
derselbe, I und 0 kennzeichnen die Datentransferrichtung. 

Beide Falle des bedingten Sprunges (Fall 1, Fall 2) sind 
dargestellt. . . 

Das Model! in Fig. 4 entspricht einem Datenf lufimodell, jedoch 
mit der wesentiicheh Erweitefuhg'.des ^ ymkonfig^atibnspunkts^^ ■ ^ . 
und der damit erreichbaren Parti tionierung des Graphen, wobei 
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die zwischen den Partitionen tibertragenen Daten 
zwischengespeichert werden. 

Im Modell von Fig, 5a wird aus einer- beliebigen Graphenmenge 
und -Konstellation (0501) selektiv ein Graph B n aus einer Menge 
von Graphen B aufgerufen. Nach der AusfUhrung von B gelangen 
die Daten nach 0501 zurtick. 

Wird in 0501 ein ausreichend groJier Sequencer (A) 
implementiert, ist mit dem Modell ein den typischen 
Prozessoren sehr ahnliches Prinzip implementierbar . Dabei 
gelangen 

L. Daten in den Sequenzer A, die dieser als Befehle dekodiert 
und entsprechend dem "von Neumann 11 -Prinzip darauf reagiert; 
2. Daten in den Sequenzer A, die als Daten betrachtet werden 
und an ein fest konfiguriertes Rechenwerk C zur Berechnung 
weitergeleitet werden. 

Der Graph B stellt selektierbar ein besonderes Rechenwerke 
und/oder besondere Opcodes ftlr bestimmte Funktionen zur 
Verftigung und wird alternativ zur Beschleunigung von C 
verwendet. Beispielsweise kann Bl ein optimierter Algorithmus 
zu Berechnung von Matrixmultiplikationen sein, wahrend B2 
einen FIR-Filter und B3 eine Mustererkennung darstellt. 
Entsprechend eines Opcodes der von 0501 dekodiert wird, wird 
der geeignete bzw. entsprechende Graph B aufgerufen. 

Fig. 5b schematisiert die Abbildung auf die einzelnen Zellen, 
wobei in 0502 der pipelineartige Rechenwerks-Character 
symbolisiert wird.. 

wahrend in den Umkonf igurationspunkten von Fig. 4 vorzugsweise 
grbBere Speicher zum Zwischenspeichern der Daten eingeftlgt 
werden, ist eine einfache Synchronisation der Daten in den 
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Uokonfigurationspunkten von Fig. 5 ausreichend, da der 
Datenstrom vorzugsweise als ganzer durch den Graphen B lauft 
und der Graph B nicht weiter partitioniert ist; dadurch ist 
das Zwischenspeichern der Daten uberflussig. 

In Fig. 6a sind verschiedene Schleifen dargestellt. Schleifen 
kennen grundsatzlich auf drei Arten behandelt werdenr 

1. Hardware-Ansatz: Schleifen werden vollstandig ausgewalzt 
auf die Zielhardware abgebildet (0601a/b) . Wie bereits 
erlautert ist dies nur bei wenigen Schleifenarten moglich. 

2. Datenflufl-Ansatz: Innerhalb des Datenflufles werden 
Schleifen uber mehrere Zellen hinweg aufgebaut (0602a/b) . Das 
Ende der Schleife wird auf den Schleifenanfang ruckgekoppelt. 

3. Sequenzer-Ansatz: Ein Seguenzer mit minimalem Befehlssatz 
fuhrt die Schleife aus (0603a/b) . Dabei sind die Zellen der 
Zielbausteine so ausgestaltet, dafl sie den entsprechenden 
Seguenzer beeinhalten (vgl. Fig. lla/b) . 

Durch eine geeignete Zerlegung von Schleifen kann deren 
Ausfuhrung ggf. optimiert werden: 

l.Unter Verwendung von Optimierungsmethoden nach dem Stand der 
Technik laflt sich haufig der Schleifenrumpf, also der 
wiederholt auszufUhrende Teil, dadurch optimieren, dafl 
bestimate Operationen aus der Schleife entfernt werden und vor 
Oder hinter die Schleife gestellt werden (0604a/b) . Dadurch 
wird dieMenge der zu seguencenden Befehle erheblich 
reduziert. Die entfernten Operationen werden nur einmal vor 
bzw. nach Ausfuhrung. der Schleife durchlaufen. 
2. Eine weitere Optimiefungsnoglichkeit ist das Teilen von 
Schleifen in mehrere kleinere Oder kUrzere Schleifen. Dabei 
findet die Teilung.derart statt, dafl mehrere parallele oder 
mehrere sequentielle. (0605a/b) . Schleifen entstehen. 
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Fig. 7 verdeutlicht die Implement ierung einer Rekursion. Dabei 
werden dieselben Ressourcen (0701) in Form von Zellen fttr jede 
Rekursionsebene (1-3) verwendet. Die Ergebnisse einer jeden 
Rekursionsebene (1-3) werden beim Atrfbau (0711:) in einen nach 
dem Stack-Prinzip aufgebauten Speicher (0702) geschrieben. 
Gleichzeitig mit dem Abbau (0712:) der Ebenen wird der Stack 
abgebaut . 

In Fig. 14 wird das Virtual-Machine-Model 1 dargestellt. Aus 
einem externen Speicher werden Da ten (1401) und zu den Da ten 
gehfirende Zustande (1402) in eine VPU (1403) gelesen. 
1401/1402 werden ttber eine von der VPU generierte Adresse 1404 
selektiert. Innerhalb der VPU sind PAEs zu unterschiedlichen 
Gruppen zusammengefaflt (1405, 1406, 1407). Jede Gruppe besitzt 
einen datenverarbeitenden Teil (1408), der Idkale ixnpilzite 
Zustande (1409) besitzt, die keinen EinfluB auf die 
umliegenden Gruppen besitzt. Daher werden dessen Zustande 
nicht auBerhalb der Gruppe weitergeleitet. Er kann jedoch von 
den externen Zustanden abhangig sein. Ein weiterer Teil (1410) 
generiert Zustande, die Einflufi auf die umliegenden Gruppen 
haben. 

Die Daten und Zustande der Ergebnisse werden in einen weiteren 
Speicher (1411, 1412) abgelegt. Gleichzeitig kann die Adresse 
von Operanden (14004) als Pointer gespeichert (1413) werden. 
Zur zeitliche Synchronisation kann 1404 Uber Register (1414) 
geftthrt werden. 

in Fig. 14 ist zur Verdeutlichung ein einfaches Modell 
dargestellt. Die Vernetzung und Gruppierung kann wesentlich 
komplexer sein als in dies em Modell. Ebenfalls kbnnen Zustande 
und Daten auch an weitere ^ : Module als den Nachfolgenden 
Ubertragen werden. Es ist maglich, dafi Daten an andere Module 
Ubertragen werden als die Zustande.; Sowohl Daten als auch 
Zustande eines bestimmten Moduls kbnnen von mehreren 
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unterschiedlichen Modulen empfangen werden. Innerhalb einer 
Gruppe kann 1408, 1409 und 1410 voranden sein. Abhangig vom 
Algorithmus konnen auch einzelne Teile fehlen (z.B. 1410 und 
1409 vorhanden, 1410 jedoch nicht) . ' 

In Figur 15 ist dargestellt wie aus einem Verarbeitungsgraphen 
Teilapplikationen extrahiert werden. Dabei wird der Graph so 
zerlegt, dafl lange Graphen sinnvoll zerteilt werden und in 
Teilapplikationen (H,A,C,K) abgebildet werden. Nach Sprtingen 
werden neue Teilgraphen gebildet (C,K) wobei fUr jeden Sprung 
ein getrennter Teilgraph gebildet wird. 
Jeder Teilgraph ist in dem ULIW-Modeli von der CT (vgl. 
PACT10) getrennt ladbar. Wesentlich ist, daB Teilgraphen durch 
die Mechanismen in PACT10 verwaltet werden k6nnen. Dazu gehGrt 
insbesondere das intelligente Konf igurieren, Aus fUhr en/St art en 
und Lflschen der Teilapplikationen. 

1503 bewirkt das Laden oder Konf igurieren von Teilapplikation 
A, wahrend Teilapplikation K ausgeftlhrt wird. Dadurch ist 

a) Teilapplikation A zum Ausfuhrungsende von Teilapplikation K 
biereits k'omplett in die PAEs konf iguriert, sofern die PAEs 
mehrere Konf igurationsregister aufweisen; 

b) Teilapplikation A zum Ausfiihruhgsende von Teilapplikation K 
bereits in die CT geladen, sofern die PAEs nur eih 
Konfigurationsregister aufweisen. 

1504 startet die AusfUhrung von Teilapplikation K. 

D.h. zur Laufzeit werden die nSchsten benetigten Programmteile 
wahrend der Abarbeitung der aktuellen Programmteile unabhangig 
geladen. Dadurch ergibt sich ein wesentlich effizienterer 
Umgang mi t den Programmcode, als bei tlblicheri Cache- 
Mechanismen. ■ 

Bei Teilapplikationen A wird eine weitere Besonderheit 
dargestellt .. Prinzipi^l 1 Warel es denkbar beide mSglichen 
Zweige (C,K) des Vergleiches vbrzukonf igurieren. Angenommen, 
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die Zahl der zur Verfiigung stehenden freien 
Konfigurationsregister reicht dazu nicht aus, wird der 
wahrscheinlichere der Zweige konfiguriert (1506). Das spart 
zudem Konfigurationszeit . Bei AusfUhrung des nicht 
Jconfigurierten Zweigs, wird (da die Konf igurat ion noch nicht 
in die Konfigurationsregister geiaden ist) die 
ProgrammausfUhrung unterbrochen, bis der Zweig konfiguriert 
ist. 

Grundsatzlich ist es mdglich auch nicht konf igurierte 
Teilapplikationen auszuftthren (1505), diese mussen dann wie 
zuvor beschrieben vor der AusfUhrung geiaden werden. 

Ein FETCH-Befehl kann von einem Trigger mittels einer eigenen 
ID angestofien werden. Damit kannen Teilapplikationen abhangig 
vom Zustand des Arrays vorgeladen werden. 

Das ULIW-Modell unterscheidet sich im Wesentlichen vom VLIW- 
Modell, indem es 

1. Das Routing der Daten mit beinhaltet 

2. GrSflere Instruktionswdrter bildet. 

Ebenfalls kann das beschriebene Verfahren der Partitionierung 
von Compilern fUr heutige Standardprozessoren nach dem 
RISC/CISC-Prinzip ebenso eingesetzt werden. Wird dann eine 
Einheit (CT) nach PACT10 zur Steuerung des Befehls-Caches 
verwendet, kann dieser erheblich optimiert und beschleunigt 
werden. 

DazU werden "nbrmale" Programme entsprechend in 
Teilapplikationen partitioniert . GemaiB PACT10 werden Verweise 
auf megliche nachfolgende Teilapplikationen eingefUhrt (1501, 
1502) . Dadurch kann eine CT die Teilapplikationen bereits in 
den Cache vorladen bevor sie benOtigt werden. Bei SprUngen wird 
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nur die angesprungen Teilapplikation ausgefiihrt, die andere(n) 
werden spater durch neue Teilapplikationen ttberschrieben. 
Neben dem intelligenten Vorladen hat das Verfahren den 
weiteren Vorteil, dafl die Grdfle der teilapplikationen beim 
Laden bereits bekannt ist. Dadurch kSnnen optimale Bursts beim 
Zugriff auf die Speicher von der CT ausgeftlhrt werden, was den 
Speicherzugriff wiederum erheblich beschleunigt. 

Figur 16 zeigt den Aufbau eines Stack-Prozessors. Durch das 
• PAE-Array (1601) werden Protokolle generiert urn auf einen als 
LIFO konfigurierten Speicher (1602) zu schreiben oder zu 
lesen. Dabei wird ein RDY/ACK-Protokoll zum Schreiben und 
REQ/ACK-Protokoll zum Lesen verwendet. Die Vernetzung und 
Betriebsmodi werden von der CT (1603) konf iguriert . 1602 kann 
dabei seinen Inhalt auf den externen Speicher (1604) 
auslagern . 

Eine Reihe der PAEs sollen in diesem Beispiel als Register- 
Prozessor arbeiten (Figur 17) . Jede PAE besteht aus einem 
Rechenwerk (1701) und einem Akkumulator (1702) auf den das 
Ergebnis von 1701 rUckgekoppelt (1703) ist. Damit stellt in 
diesem Beispiel jede PAE einen Akkumulator-Prozessor dar. 
Eine PAE (1705) liest und schreibt die Daten in den als 
Standardspeicher konfigurierten RAM (1704). Eine weitere PAE 
(1706) generiert die Registeradressen. 

Oftmals ist es sinhvoll eine getrennt PAE ,zum Lesen der Daten 
zu verwenden. Dann wllrde 1705 nur schreiben und die PAE 1707 
lesen. Dabei wird eine weitere PAE (1708, gestrichelt 
unterlegt) zum Generiereh der Les'eadressen einzufuhren. 

Es ist nicht zwingend notwendig getrennte PAEs zum Generieren . 

der Adressen zu verwendet. Oftmals sind die Register implizit 

undkdnnen dann als Konstanten kbnf iguriert werden von den 

datenverarbeitenden PAEs gesendet werden. 
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Die Verwendung von Akkumulator-Prozessoren for einen Register- 
Prozessor ist beispielshaft . Ebenso konnen zum Aufbau von 
Registerprozessoren PAEs ohne Akkumulator verwendet werden. 
Die in Figur 17 gezeigte Architektur kann zur Ansteuerung von 
Registern als auch zum Ansteuern einer Load/Store-Einheit 
dienen. 

Bei der Verwendung als Load/Store-Einheit ist es fast zwingend 
notwendig einen externen RAM (1709) nachzuschalten, sodaB 1704 
nur einen temporSren Ausschnitt aus 1709, quasi als Cache, 
darstellt. 

Auch bei der Verwendung von 1704 als Register-Bank ist es 
teilweise sinnvoll einen externen Speicher nachzuschalten. 
Dadurch kdnnen PUSH/ POP Operationen nach dem Stand der Technik 
durchgeftlhrt werden, die den Registerinhalt in einen Speicher 
schreiben oder aus diesem Lesen. 

In Figur 18 ist als Beispiel eine komplexe Maschine abgebildet 
bei der das PAE-Array (1801) einerseits einen Load/Store- 
Einheit (1802) mit nachgeschaltetem RAM (1803) ansteuert und 
gleichzeitig eine Register-Bank (1804) mit nachgeschaltetem 
RAM (1805) aufweist. 1802 und 1804 kOnnen jeweils von einer 
PAE oder einer beliebigen Gruppe von PAEs angesteuert werden. 
Die Einheit wird gemSfi dem VPU-Prinzip von einer CT (1806) 
gesteuert. 

Wichtig ist, daB zwischen der Load/Store-Einheit (1802) und 
der Register-Bank (1804) und deren Ansteuerung kein 
wesentlicher Unterschied besteht. 

Die Figuren 19,20,21 zeigen einen erf indungsgemSBen internen 
Speicher, der zugleich. eine. Kbnnpunikationseinheit mit externen 
Speichern und/oder Peripherie darstellt. Die einzelnen Figuren 
zeigen unterschiedliche Betriebsarten desselben Speichers. . Die 
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Betriebsarten, sowie einzelne Detaileinstellungen werden dabei 
konfiguriert. 



Figur 19a zeigt einen erf indungsgemafien Speicher im 
"Register/Cache" Modus. Im erfindungsgemaflen Speicher (1901) 
sind Datenworte eines far gewahnlich grofleren una langsameren 
externen Spe ichers (1902) abgelegt. 

Der Datenaustausch zwischen 1901, 1902 und den iiber einen Bus 
(1903) angeschlossenen PAEs (nicht dargestellt) findet dabei 
wie folgt statt, wobei unter zwei Betriebsarten unterschieden 
wird: 

A) Die von den PAEs von dera Hauptspeicher 1902 gelesenen Oder 
gesendeten Daten werden in 1901 mittels eines Cache-Verfahrens 
gepuffert. Dabei kann jedes bekannte Cache-Verfahren zum 
Einsatz kommeri. 

B) Mittels einer Load/Store-Einheit werden die Daten 
bestimmter Adressen zwischen 1902 und 1901 Ubertragen. Dabei 
werden bestimmte Adressen, sowohl in 1902 als auch in 1901 
vorgegeben, wobei ftir 1902 und 1901 gewahnlicherweise 
unterschiedliche Adressen verwendet werden. Die einzelnen 
Adressen kSnnen dabei durch Konstante oder durch Berechnungen 
in PAEs erzeugt werden. In dieser Betriebsart arbeitet der 
Speicher 1901 als Registerbank. 

Die Zuordnung der Adressen zwischen 1901 und 1902 kann dabei 
beliebig sein und hangt lediglich von den jeweiligen 
Algorithmen der beiden Betriebsarten ab. 
In 19b ist die entsprechende Maschine als Blockdiagranim 
dargestellt. Dem Bus zwischen 1901 und 1902 ist eine 
Steuereinheit (1904) zugeordnet/ die je nach Betriebsart als 
Lpad/Store-Einheit .(nach dem : Stand der Technik) oder als 
Cache-Kontroller (nach den Stand der Technik) agiert. Dieser 
Eihheit kann bei Bedarf eine Speicherverv/altungseihheit (MMU) 
(1905) mit AdressUbersetzung und -UberprUfung zugeordnet 
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werden. Sowohl 1.904 als auch 1905 kann von den PAEs 
angesteuert werden. So wird beispielsweise die MMU 
programmiert, die Load/Store Adressen gesetzt oder ein Cache- 
Flush ausgelbst. 

Figur 20 zeigt den Einsatz des Speichers (2001) im FIFO-Modus, 
in welchem nach dem bekannten FIFO-Prinzip Datenstrome 
entkoppelt werden. Der typische Einsatz ist in einem Schreib- 
(2001a) oder Leseinterf ace (2001b) .' Dabei werden Daten 
zwischen den PAEs, die an dem internen Bussystem (2002) 
angeschlossen sind und dem Peripheriebus (2003) zeitlich 
entkoppelt. 

Zur Steuerung des FIFOs ist eine Einheit (2004) vorgesehen, 
die den Schreib- und Lesezeiger des FIFOs abhangig von den 
Busoperationen von 2003 und 2002 steuert. 

In Figur 21 ist das Arbeitsprinzip der erf indungsgemafien 
Speicher im Stack-Modus dargestellt. Ein Stack ist (nach dem 
Stand der Technik) ein Stapelspeicher, dessen 
oberstes/unterstes Element das gerade Aktive ist. Daten werden 
immer oben/unten angefUgt, ebenso werden die Daten oben/unten 
entfernt. D.h. das zuletzt geschriebene Datum ist auch das, 
welches zuerst gelesen wird (Last In First Out). Ob ein Stack 
nach oben oder unten w&chst, ist unbedeutend und 
implementierungsabhangig. Im folgenden Ausftthrungsbeispiel 
werden Stacks betrachtet, die nach oben wachsen. 

Dabei sind die aktuellsten pa.terr im internen Speicher 2101 
gehalten, der. aktuellste Eintrag (2107) befindet sich ganz . 
oben in 2101. Alte EintrSge sind auf den externen Speicher 
2102 ausgelagert.. W&chst der Stabk weiter, reicht der Platz im 
internen Speicher 2101 nicht mehr aus. Bei Erreichen einer 
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bestimmten Datenmenge, die durch eine (frei wahlbare) Adresse 
in 2101 oder einen (frei wahlbaren) Wert in einem 
Eintragszahler reprasentiert sein kann, wird ein Teil von 2101 
als Block an das aktuellere Ende 12103) des Stacks in 2102 
geschrieben. Dieser Teil sind die aitesten und somit am 
wenigsten aktuellen Daten (2104) . Danach werden die 
verbleibenden Daten in 2101 so verschoben, daB die nach 2102 
kopierten Daten in 2101 mit den verbleibenden Daten (2105) 
Qberschrieben werden und somit genUgend freier Speicher (2106) 
fUr neue Stackeintrage entsteht. 

Nimmt der Stack ab, werden ab einem gewissen (frei wahlbaren) 
Punkt die Daten in 2101 so verschoben, da* hinter den aitesten 
und unaktuellsten Daten freier Speicher entsteht. in den 
freigewordenen Speicher wird ein Speicherblock aus 2102 
kopiert, der dann in 2102 geldscht wird. 

Mit anderen Worten reprSsentieren 2101 und 2102 einen einzigen 
Stack, wobei die gerade aktuellen Eintrage in 2101 liegen und 
die alteren und weniger aktuellen in 2102 ausgelagert sind. 
Quasi stellt das Verfahren einen Cache far Stacks dar. Da die 
Datenblocke vorzugsweise per Blockoperationen ubertragen 
werden, kann der Datentransfer zwischen 2101 und 2102 in den 
schnellen Burst-Betriebsarten moderner Speicher (SDRAM, 
RAMBUS, etc.) ausgefllhrt werden. 

Es soil nochmals erwahnt werden, dan im Ausfuhrungsbeispiel in 
Fig. 21 der stack nach oben wachst. Sbllte der Stack nach 
unten wa.chsen (eine haufig verwendete. Methode) , sind die 
Positionen oben/unten und die Richtungen in die die Daten 
innerhalb eines Speichers bewegt werden genau vertauscht. 

Sinnvollerweise wird der. interne Stack 2101 als eine Art 
Ringspeicher ausgestaltet. Die Daten an einem Ende des Ringes 
werden zwis.chen PAEs und 2101 Ubertragen und am ancieren Ende 
des Ringes zwischen 2101 und 2102. Dadurch entsteht der 
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Vorteil, dafi einfach Daten zwischen 2101 und 2102 verschoben 
werden konnen, ohne Einflufi auf die internen Adressen in 2101 
zu haben. Lediglich die Positionszeiger der unteren und oberen 
Daten und der Ftlllstandszahler mUssen jeweils angepa&t werden. 
Die Datentibertragung zwischen 2101 und 2102 kann durch die 
bekanhten Ringspeicher-Flags "beinahe voll (almost full) / 
vol! (full)" und "beinahe leer (almost empty) / leer (empty)" 
ausgelSst werden. 

Die notwendige Hardware ist als Blockschaltbild in Fig 21b 
dargestellt. Dem internen Stack 2101 ist eine Einheit (2110) 
zur Verwaltung der Zeiger und zahler 2ugeordnet. In den Bus 
(2114) zwischen 2101 und 2102 ist eine Einheit (2111) zur 
Steuerung der Datentransfers eingeschleif t . Dieser Einheit 
kann eine MMU (2112) nach dem Stand der Technik mit den 
entsprechenden Prtifsystemen und Adressttbersetzungen zugeordnet 
werden. 

Die Verbindung zwischen den PAEs und 2101 wird ttber das 
Bussystem 2113 realisiert. 

In Figur 22 ist ein Beispiel fur das Umsortieren von Graphen 
gezeigt. Die linke Spalte (22.. a) zeigt eine unoptimierte 
Anordnung von Befehlen. Dabei werden die Pointer A (2207a) und 
B (2211a) geladen. Jeweils bereits einen Takt spater werden 
die Werte der Pointer ben&tig.t (2208a, 2212a) . Diese 
Abhangigkeit ist zu kurz urn effizient ausgeftlhrt zu werden, da 
zum Laden aus dem Speicher eine bestimmte Zeit (2220a, 2221a) 
benfltigt wird. Durch umsortieren der. Befehle (22.. b) werden 
die Zeitraume maximal vergrofiert" (2220b, 2221b). Obwohl in 
2210 und in 2208 der Wert des Pointers von A behbtigt wird, 
wird 2208 nach 2210 einsortiert, da dadurch mehr Zeit zur 
Bierechhung von B gewonheh wird. Es ist.mttglich Berechnungen 
die von den Pointern unabhangig sind (2203,2204,2206) 
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beispielsweise zwischen 2211 und 2212 einzufligen um mehr Zeit 
fUr die Speicherzugrif fe zu erhalteru Ein Compiler Oder 
Assembler kann hier anhand von Systemparametern, die die 
Zugriffzeiten reprasentieren, die entsprechende Optimierung 
vornehmen. 

Figur 23 zeigt einen Sonderfall der Figuren 4-7. Haufig 
besteht ein Algorithmic, auch innerhalb von Schleifen, aus 
DatenfluBteilen und sequentiellen Teilen. Derartige Strukturen 
kannen gemafl dem beschriebenen Verfahren unter Einsatz des in 
PACT 07 beschriebenen Bussystems effizient aufgebaut werden. 
Hierzu wird das RDY/ACK-Protokoll des Bussystems zunachst um 
das erfindungsgemafie REQ/ACK-Protokoll erweitert. Dadurch 
kSnnen gezielt Registerinhalte einzelner PAEs von einer oder 
mehreren anderen PAEs oder von der CT abgefragt werden. 
Eine Schleife (2305) wird nun in mindestens zwei Graphen 
zerlegt, einen ersten (2301), der den Datenf lufianteil 
reprasentiert und einen zweiten (2302), der den sequentiellen 
Anteil abbildet. 

Ein bedingter Sprung wahlt zwischen den beiden Graphen- Das 
besondere ist nun, dafl 2302 den internen Zustand von 2301 
kennen zur AusfUhrung benetigt und umgekehrt 2301 den Zustand 
von 2302 kennen mufi. 

Dies wird realisiert, indem der Zustand genau einmal, namlich 
in den Registern der PAEs des performanteren. Datenf luBgraphen 
(2301) gespeichert wird. 

Wird in 2302 gesprungen, liest der Sequenzer bei Bedarf die 
Zustande der jeweiligen Register raittels des Bussystems aus 
PACT 07 aus (2303). Der Sequenzer- fUhrt seine Operationen aus 
und schreibt alle ge&nderten Zustande in. die .Register ... 
(wiederum. Uber das Bussystem nach PACT07) zurtick (2304), 
AbschlieBend soil angemerkt werden, daB es sich bei. den 
besprochenen Graphen nicht unbedingt um enge Schleifen (2305) 
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handeln mufi. Das Verfahren ist genereil auf jeden 
Teilalgorithmus verwendbar, der innerhalb eines 
Programmablaufes mehrfach ausgeftihrt wird (reentrant) und 
wahlweise entweder sequentiell oder-parallel (datenf luiiartig) 
abgearbeitet wird, wobei die Zustande zwischen dem 
sequentiellen und dem parallelen Teil transferiert werden 
mlissen. 

Die Waverekonfigurierung bietet erhebliche Vorteile bei der 
Geschwindigkeit der Umkonf iguration, insbesondere bei 
einfachen sequentiellen Operationen. 

Eine grundlegende Besonderheit dieser Verarbeitungsmethode 
ist, daB der Sequenzer auch als externen Mikroprozessor 
ausgestaltet sein kann. Das bedeutet dafi ein Prozessor Uber 
die Datenkanale mit dem Array verbunden ist und lokale, 
texnporare Daten Uber Bussysteme mit dem Array austauscht. 
Samtliche sequentielle Teile eines Algorithmus die nicht in 
das Array aus PAEs abgebildet werden kSnnen werden auf dem 
Prozessor. abgewickelt . 

Es mufl zwischen drei Bussystemem unterschieden werden: 

1. Datenbus, der den Aus t aus ch der verarbeiteden Daten 
zwischen VPU und Prozessor regelt. 

2. Registerbus, der den Zugriff auf die Register der VPU 
ermGglicht und den somit den Datenaustausch (2302, 2304) 
zwischen 2302 und 2301 gewahrleistet . 

3. Konfigurationsdatenbus, der das Array der VPU konf iguriert. 

In Figur 24 sind die Auswirkungeh zeitlich dargestellt. 
Einfach schraffierte Fiachen stelleh datenverarbeitende PAEs 
dar, wobei 2401 PAEs nach der Umkonf iguration und 2403 PAEs 
vor der Umkonf iguration zfei^eni Doppelt schraffierte Fiachen 
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(2402) zeigen PAEs die gerade umkonfiguriert werden oder auf 
die Umkonf iguration warten. 

Figur 24a zeigt den Einfluft der Wave-Rekonf igurierung auf 
einen einfachen sequentiellen Aigorithmus. Hier ist es 
mdgliche exakt die PAEs umzukonf igurieren, denen eine neue 
Aufgabe zugeteilt wird. Da in jedem Takt eine PAE eine neue 
Aufgabe erhait kann dies effizient, nSmlich zeitgleich 
durchgefUhrt werden. 

Beispielsweise dargestellt ist eine Reihe von PAEs aus der 
Matrix aller PAEs einer VPU. Angegeben sind die Zustande in 
den Takten nach Takt t mit jeweils einem Takt Verzegerung. 

In Figur 24b ist die zeitliche Auswirkung der Umkonf iguration 
von groBen Teilen dargestellt. Beispielsweise dargestellt ist 
eine Menge von PAEs einer VPU. Angegeben sind die Zustande in 
den Takten nach Takt t mit einer unterschiedlichen VerzSgerung 
von jeweils mehreren Takten. 

Wahrend zunachst nur ein kleiner Teil der PAEs umkonfiguriert 
wird oder auf die Umkonf iguration wartet, wird diese Fiache 
mit zunehmender Zeit grOBer, bis alle PAEs umkonfiguriert 
sind. Das grbBer werden der FlSche bedeutet, daB, bedingt 
durch die zeitliche Verzfigerung der Umkonf iguration immer raehr 
PAEs auf die Umkonf iguration warten (2402). Dadurch geht 
Rechenleistung verloren. 

Es wird daher vorgeschlagen ein breiteres Bussystem zwischen 
der CT (insbesondere des Speichers der CT) und den PAEs 
einzusetzen, das genUgend Leitungen zur Verftlgung stellt, um 
innerhalb eines Taktes mehrere PAEs zugleich 
umzukonf igurieren . 

Figur 25 verdeutlicht die Skalierbarkeit der VPU-Technologie. 
Die Skalierbarkeit geht' im Wesentlicheri aus. dem Ausro.llen ■ 
eines Graphens hervor, ohne daB eine zeitliche Abfolge 
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einzelne Teilappiikationen trennt. Als Beispiel ist der 
Algorithmic aus Figur 4 gewahlt. In Figur 25a werden die 
einzelnen Teilgraphen zeitlich nacheinander auf die VPU 
Ubertragen, wobei entweder Bi oder Br 2 geladen wird. In Figur 
25b werden alle Teilgraphen auf eine Menge von VPUs Ubertragen 
und mit Bussystemen untereinander verbunden. Dadurch kannen 
grofle Datehmengen ohne den negativen EinfluA des 
Umkonf igurierens leistungsfahig abgearbeitet werden. 

Figur 26 zeigt eine Schaltung zur Beschleunigung der (Urn-) 
konfigurationszeit von PAEs. Gleichzeitig kann die Schaltung 
zur Verarbeitung von sequentiellen Algorithmen verwendet 
werden. Das Array von PAEs (2605) 1st in mehrere Teile (2603) 
parti tioniert. Jedem Teil ist eine eigenstandige Einheit zur 
(Um-) konf iguration (2602) zugeordnet. Diesen Einheiten 
tibergeordnet ist eine CT (2601) nach dem Stand der Technik 
(vgl. PACT10), die wiederum an eine weitere CT oder an einen 
Speicher angeschlossen ist (2604). Die CT lad die Algorithmen 
in die Konf igurationseinhei ten (2602) . Die 2602 laden 
selbstandig die Konf igurationsdaten in die ihnen zugeordneten 
PAEs. 

In Figur 27 ist ein Aufbau einer Konf igurationseinheit 
dargestellt. Kern der Einheit ist ein Sequenzer (2701) der 
eine Reihe von Befehlen beherrscht* 
Die wesentlichen Befehle sind: 
wait <trg#> 

Warten auf das Eintreffen eines bestimmten Triggers; aus dem 
Array, der angibt, welche nachste Konfiguration geladen Werden 
soil. 

lookup <trg#> 

Gibt die Adresse des durch einen . eintreffenden Trigger . 
aufgerufenen Unterprograinms zurtlck. 
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jmp <adr> 

Sprung nach Adresse 



call <adr> 

Sprung nach Adresse. ROcksprungadresse wird auf dem stack 
gespeichert 

jmp <cond> <adr> 

Bedingter Sprung nach Adresse 

call <cond> <adr> 

Bedingter Sprung nach Adresse. Rucksprungadresse wird auf dem 
Stack gespeichert 

ret 

Rucksprung auf die auf dem Stack gespeicherte 
RUcksprungadresse 

nov <target> <source> 

Obertragt ein Datenwort von Quelle (source) an ein Ziel 
(target,. Quelle und Ziel konnen jeweils in einem Speicher 
Oder eine Peripherieadresse sein. 

Im wesentlichen sind die Befehle aus PACT10, d.h. der 
Beschreibung der CT bekannt. Wesentlicher Unterschied in der 
implementierung der 2602 ist, dafl nur sehr einfache Befehle 
zur Datenverwaltung verwendet werden und kein vollstandiger 
Mikrokontroller verwendet wird. "- : 

Bine bedeutende Erweiterung des Befehlssatzes ist der -pabn-- 
Befehl zu» Konfiguriereri der PAEs. Es stehen zwei .Bef ehife , : • 
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(pabmr, pabmm) zur VerfUgung, die folgendermassen aufgebaut 

sind: 

a) 



b) 



pabmr 


regno 


count - 


pa_adro 


pa_dtao 


pa_adri 


pa_dta L 






pa_adr CO unt 


pa_dtacount 




pabiwn 


000 


count 


offset 


pa_adro 


pa_dta<, 


pa_adri 


pa_dtai 






pa_adr C ount 


pa_dtacount 




pabmr 


regno 


count 


memref 




pabrom 


000 


count 



offset 



memref 



Die Bef ehle kopieren einen zugeordneten Block von PAE-Adressen 
und PAE-Daten vom Speicher zu dem PAE-Array. Durch <count> ist 
angegeben, wie grofi der zu kopierende Datenblock ist. Der 
Datenblock ist entweder direktan den Opcode angeharigt (aj 
Oder durch Angabe der erste Speicheradresse <memref> 
ref ereriziert (b) • . 
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Jede pa_adr n -pa_dta n -Zeile stellt eine Konfiguration ftir eine 
PAE dar. Dabei gibt pa_adr ft die Adresse und pa_dta n das 
Konfigurationswort der PAE an. 

Aus PACT10 ist das RDY/ACK-REJ Protokoll bekannt . Werden die 
Konfigurationsdaten von einer PAE angenommen, quittiert die 
PAE die gesendeten Daten mit einem ACK. Kann dagegen eine PAE 
die Konfigurationsdaten nicht annehmen, da sie sich nicht in 
einem umkonf igurierbaren Zustand befindet, sendet sie ein REJ 
zurtick. Dadurch schiagt die Konfiguration des Teilalgorithmus 
fehl. 

Die Stelle mit REJ zurlickgewiesenen pa_adr n -pa_dta n -Zeile wird 
gespeichert. Die Befehle werden zu einem spateren Zeitpunkt 
erneut aufgerufen (vgl. PACT10, FILMO) . Sofern der Befehl 
komplett abgearbeitet wurde, d.h. es trat kein REJ auf, ftthrt 
der Befehl keine weitere Konfiguration durch sondern 
terminiert sofort* Trat ein REJ auf, springt der Befehl direkt 
an die Stelle der zurUckgewiesenen pa_adr ft -pa_dtan-Zeile. Je 
nach Befehl wird die Stelle unterschiedlich gespeichert: 
pabmr: Die Adresse wird in dem mit <regno> genannten Register 
gespeichert. 

pabmm: Die Adresse wird direkt im Befehl an der Speicherstelle 
<offset> gepeichert. 

Die Befehle sind durch DMA-Strukturen als Speicher/IO- 
Transfers nach dem Stand der Technik implementierbar. Die DMAs 
werden durch eine Logik zum Uberwachen der eingehenden ACK/REJ 
erweitert. Die Startadresse wird durch <regno>, bzw. <offset> 
bestimmt. Die letzte Adresse des Datenblocks wird durch die 
Adresse des Befehls plus dessen Opcode-Lahge minus eins plus 
die Anzahl der pa_adr n -pa_dtan-Zeilen berechnet. 
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Es ist sinnvoll auch die in PACT10 beschriebene Schaitung 
durch die genannten Befehle zu erWeitern. 



Figur 27 zeigt den Aufbau einer Einheit 2602. Die Einheit 
besteht aus einem Registersatz 2701 dem eine einfache ALU fUr 
Stackoperationen zugeordnet ist (2702) . Die Struktur enthait 
Adressregister und Stackpointer ♦ Optional kann eine 
vollwertige ALU eingesetzt werden. Ein Bussystem (2703) mit 
minimaler Breite verbindet Register und ALU. Die Breite ist 
dabei so bemessen, dab einfache KontrollfluBbefehle bzw. 
einfache ALU-Operationen sinnvoll dargestellt werden kfcnnen. 
Zusatzlich werden die vorab beschriebenen PABM-Bef ehle, sowie 
die Befehle nach PACT10 untersttltzt . Register und ALU werden 
von einem Sequenzer 2706 gesteuert, der durch Ausftlhrung von 
Befehlen einen vollstandigen Microcontroller darstellt. 
An 2703 ist eine Einheit 2704 angeschlossen, die Trigger von 
den zugeordneten PAEs entgegennizuat und quittiert und 
gegebenenfalls ihrerseits Trigger an die PAEs sendet. 
Eingehende Trigger 16sen dabei in dem Sequenzer 2706 einen 
Interrupt aus oder werden durch den WAIT-Befehl abgefragt. 
Optional an 2703 angeschlossen ist ein Interface (2705) zu 
einem Datenbus der zugeordneten PAEs um Daten an die PAEs 
senden zu kOnnen. Beispielsweise werden die Assemblercodes 
eines in den PAEs implementierten Sequenzers Uber 2705 
gesendeti Das Interface enthait sofern erforderlich einen 
Konverter zur Anpassixng der unterschiedlichen Busbreiten. 
Die Einheiten 2701 bis 2706 sind Uber einen 
Multiplexer/Demultiplexer (2707) an ein urn ein Vielf aches 
breiteres Bussystem (27Q8). angeschlossen, das zum Speicher 
(2709) fUhrt. 2707 wird.von den niederwertigen Adressen des 
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Adress-ZStackregisters angesteuert, die hoherwertigen Adressen 
filhren direkt zum RAM (2711, . Das Bussystem 2708 ftlhrt zu 
einem Interface (2709), das durch die PA-Befehle gesteuert 
wird und zum Konfigurationsbus der PAEs fuhrt. 2708 ist bewuflt 
breit ausgelegt urn moglichst viele Konf igurationsbits pro 
Takteinheit Uber 2709 an die PAEs senden zu k6nnen. Ein 
weiteres Interface (2710) verbindet den Bus mit einer 
ubergeordneten CT, die Konfigurations- und Steuerdaten mit 
2602 austauscht. Die Interface 2710 und 2709 bereits mehrfach 
in PACT10, PACT?? beschrieben worden. 

Wesentlich ist, daii 2706 einen reduzierten und auf die Aufgabe 
optimierten Minimalsbefehlssatz beherrscht, der vor allem auf 
die PA-Konunandos, Sprunge, Interrupts und Lookup-Be fehle 
optimiert ist. Weiterhin ist das optinierte breite Bussystem 
2708, das uber 2707 auf ein schmales Bussystem ubertragen wird 
von besonderer Bedeutung fur die 
Umkonfigurationsgeschwindigkeit der Einheit. 

Figur 27a ist eine spezielle Ausgestaltung von Figur 27. Das 
interface 2705 dient der Obertragung von Assemblercodes an im 
PAE-Array konfigurierte Sequenzer. Die Verarbeitungsleistung 
der Sequenzer hangt wesentlich von der Geschwindigkeit des 
Interfaces 2705 und dessen Speicherzugrif fes ab. In Figur 27a 
ist 2705 durch eine DMA-Funktion mit direktem Speicherzugrif f 
<2720 r .) ersetzt. 2720. fuhrt eigene Speicherzugrif fe aus und 
besitzt ein eigenes Bussystem (2722,, mit entsprechender . 
Anpassung der Busbreite (2721J ; dabei kann der Bus zum Laden 
von breiten Befehlssequenzen (ULIW, verhaltnismaflig breit 
ausfallen, sodafl als Grenzfall 2721 r ; komplett entfallt. 2ur 
weiteren Steigerung der Geschwindigkeit ist der Speicher 2711 
physikalisch in 2711a und 271lb„ getrennt worden. Der 
Adressraum uber 2711a und 2711b, verbleibt linear,: jedoch kann 
von. 2701, 2702, 2706 auf beide Speicherblocke unabhangig 
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gleichzeitig zugegriffen werden; 2720 P . kann nur auf 27llb n 
zugreifen. 2720 n , 2721 n und 2711b n kann mehrfach ( r .) 
implementiert sein, damit mehrere Sequenzer gleichzeitig 
verwaltet werden konnen. Dazu kann 271 lb n nochmals in mehrere 
physikalisch unabhangige Speicherbereiche unterteilt werden. 
In Figur 38 ist sind Implementierungsbeispiele fUr 2720 a 
beschrieben. 

In Figur 28 wird der Aufbau von komplexen Programmen 
verdeutlicht • Die Basismodule der Programme sind die Koznplex- 
Konf igurationen (2801) die die Konfigurationen einer Oder 
mehrere PAEs und der dazugehorenden Bus- und 
Trigger konfigurationen beinhalten. Die 2801 werden durch 
einen Opcode (2802) reprasentiert, der zusatzliche Parameter 
(2803) besitzen kann. Diese Parameter kttnnen einerseits 
konstante Datenwerte, variable Startwerte oder auch spezielle 
Konfigurationen beinhalten. Es existieren je nach Funktion 
ein, mehrere oder auch kein Parameter. 
Mehrere Opcodes greifen auf einen gemeinsamen Satz von 
Komplex-Konf igurationen zurtlck und bilden damit eine Opcode- 
Gruppe (2805) . Die unterschiedlichen Opcodes einer Gruppe 
unterscheiden sich durch besondere Ausgestaltungen der 
Komplex-Konf igurationen. Dazu werden Diff erenzierungen (2807) 
verwendet, die entweder zusatzliche Konf igurationsworte 
enthalten, oder in 2801 vorkommende Konf igurationsworte 
Uberschreiben. 

Eine Komplex-Kon figuration wird, sofern keine Dif ferenzierung 
erforderlich ist, direkt von einem Opcode aufgerufen (2806) . 
Ein Programm (2804) setzt sich aus einer Abfolge von Opcodes 
mit den jeweiligen Parametern zusammen. 

Eine komplexe Funktion kann einmal in das Array geladen werden 

und kann danach durch unters.chiedliche Parameter oder 

Diff erenzierungen neu umkonf iguriert werden. Dabei werden nur 
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die sich andernden Telle der Konfiguration umkonf iguriert. 
Unterschiedliche Opcode-Gruppen greifen auf unterschiedliche 
Koraplex-Konfigurationen zurttck. (2805a, „, 2805n) . 
Die unterschiedlichen Ebenen (Komplex-Konfiguration, 
Differenzierung, Opcode, Programm) werden in verschiedenen 
Ebenen von CT's abgearbeitet <vgl. CT Hierarchien in PACT10) . 
Die unterschiedlichen Ebenen sind in 2810 dargestellt, wobei 1 
die. niederste und N die hochste Ebene darstellt. CTs konnen zu 
beliebig tiefen Hierarchien aufgebaut werden (vgl. PACT10) . 

Es wird in 2801 unter zwei Arten von Codes unterschieden: 

1. Konfigurationsworte, die einen Algorithms auf das Array 
aus PAEs abbilden. Der Algorithmus kann dabei auch als 
Sequenzer ausgestaltet sein. Die Konfiguration erfolgt uber 
die Schnittstelle 2.709. Konfigurationsworte werden durch die 
Hardware definiert. 

2. Algorithmusspezifische Codes, die von der meglichen 
Ausgestaltung eines Sequenzer oder Algorithmus abhangig sind. 
Diese Codes werden vom Programmierer oder Compiler definiert 
und dienen zur Ansteuerung eines Algorithmus. 1st 
beispielsweise ein 280 als Sequenzer in die PAEs konfiguriert, 
stellen diese Codes den Opcode des Z80 Mikroprozessors dar. 
Algorithmusspezifische Codes werden Uber 2705 an das Array aus 
PAEs gesendet. 

In Figur 29 ist ein moglicher Grundaufbau einer PAE 
dargestellt. 2901 bzw. 2902 stellen die Eingangs- bzw. 
Ausgangsregister der Daten dar. Den Registern zugeordnet ist 
die kpmplette Vernetzungslogik zum Aufschalten auf den/die 
Datenbus/se (2920, 2921). des Arrays .(vgl PACT02). Die 
Tfiggerleitungen gem. PACT08 werden durch 2903 vom Triggerbus 
(2922). abgeg.rif fen und mi t. 2904 auf den Triggerbus (2923) . .. 
aufgeschaltet. Zwischen 2901 und 2902 ist eine ALU (2905) 
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beiiebiger Ausgestaltung geschaltet. Den Datenbussen (2906, 
2907) und der ALU zugeordnet ist ein Registersatz (2915), in 
welchem lokale Daten gespeichert warden. Die RDY/ACK- 
Syncronisationssignale der Datenbusse und Triggerbusse werden 
zu einer Statemachine (oder einem Sequenzer) (2910) geftthrt 
(2908) , bzw. von der Einheit generiert (2909). 
Ober eine Interf aceeinheit (2911) greift die CT mittels eines 
Bussystemes (2912) selektiv auf eine Mehrzahl von 
Konfigurationsregistern (2913) zu. 2910 wahlt Uber einen 
Multiplexer (2914) jeweils eine bestiznmte Konf iguration aus, 
oder sequenzc tiber eine Mehrzahl von Konf igurationsworten, die 
dann Befehle fUr den Sequenzer darstellen. 

Da die VPU-Technologie hauptsachlich gepipelihet arbeitet ist 
es von Vorteil entweder.die Gruppe 2901 und 2903 oder die 
Gruppe 2902 und 2904 oder beide Gruppen zusatzlich mit FIFOs 
zu versehen. Dadurch kann verhindert werden, daB eine Pipeline 
durch einfache VerzGgerungen (z.B. in der Synchronisation) 
stockt. 

2920 ist ein optionaler Buszugang, Uber den ein der Speicher 
einer CT (siehe Fig. 27, 2720) oder ein gew&hnicher interner 
Speicher an S telle der Konfigurationsregister an den Sequenzer 
2910 geschaltet werden kann. Damit sind groJie sequentielle 
Programme in einer PAE ausfUhrbar. Der Multiplexer 2914 wird 
dazu so geschaltet, da5 er nur den internen Speicher 
verbindet. 
Die Adressen werden 

a) ftir den GT-Speicher durch die Schaltung in Fig. 38 
generiert. 

b) fUr den internen Speicher direkt von 2910 generiert. 

Figur 30 zeigt eine mogliche Erweiterung der PAE um der CT 
oder einem anderen zuegschalteten Mikroprozessor einen Zugriff 
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auf die Datenregister zu ermoglichen. Der Adressraum und die 
Interface der Buseinheit (vormals 2911, 3003) werden um die 
zusatzlichen Datenbusse (3001) erweitert. Den jeweiligen 
Registern wird ein Multiplexer (3002) vorgeschaltet mittles 
dem 3003 Uber den Bus 3001 Daten in das Register schreiben 
kann. Die Ausgange der Register werden Uber 3001 zurtick an 
3003 gefilhrt. 3003 tibertragt die Daten zur CT 2912. 
Alternativ (3003a) zur Obertragung der Daten zu CT ist es 
m&glich die Daten durch ein zusatzliches Interface (3004) auf 
einen von der CT unabhangigen Bus (3005) zu Ubertragen. 

Figur 31 zeigt die Kopplung des Arrays von PAEs (3101) mit 
einem Ubergeordneten Mi krokont roller . 3101 beinhaltet sind 
samtliche IO-Kanale gemafi den erfindungsgemafien Speichern. 
Die Architektur arbeitet gem&fl Figur 23. 2912 in Figur 31a 
stellt den Bus ftir die Konfigurationsdaten und Registerdaten 
gem. Figur 30 zur VerfUgung. Der Datenbus wird separat durch 
3104 dargestellt. 3102 stellt die CT dar, die in Fig. 31a auch. 
den Mikroprozessor darstellt. 

FUr samtliche Bussysteme bestehen unabhangig voneinander 
folgende AnschluBmodelle an einen Prozessor, die je nach 
Programmiermodell und unter Abwagung von Preis und Performance 
gewahlt werden: 
1 . Register-Modell 

Beim Register-Modell wird der jeweilige Bus tlber ein Register 
angesprochen, das.direkt in den Registersatz des Prozessors 
integriert ist und vom Assembler als Register oder Gruppe von 
Registern angesprochen wird. Dieses Modell ist am 
ef fizientestens wenn einige Wenige Register. fQr den 
Datenaustausch ausreichen. 
■ 2. IO-Modell 
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Der jeweilige Bus liegt im IO-Bereich des Prozessors. Dies ist 
meistens die einfachste und kostengtinstigste Variante. 

3. Shared-Memory-Mode 11 

Der Prozessor und der jeweilige Bus -teilen sich einen 
Speicherbereich im Datenspeicher- FUr grofie Datenmengen ist 
das eine performante Lbsung. 

4. Shared-Memory-DMA-Modell 

Prozessor. und Bus teilen sich wie im vorigen Modell denselben 
Speicher. Zur weiteren Geschwindigkeitssteigerung existiert 
eine schnelle DMA (vgl. Figur 38) 

die den Datenaustausch zwischen Bus und Speicher Ubernimmt. 

Zur Steigerung der Ubertragungsgeschwindigkeit sollten die 
jeweiligen Speicher physikalisch vom Ubrigen Speicher trennbar 
sein (mehrere Speicherbanke) , damit Prozessor und VPU 
unabhangig auf ihre Speicher zugreifen kBnnen. 

In Figur 31b Ubernimmt eine CT (3102) die Konfiguration des 
Arrays, w&hrend ein dedizierter Prozessor (3103) ttber 3006 das 
Programmiermodell nach Fig. 23 gewahrleistet, indem er Ober 
3006 Registerdaten mit dem Array austauscht und ilber 3104 die 
gewehnlichen Daten austauscht. 

Die Figuren 31c/d entsprechen den Figuren 31a/b, jedoch wurde 
fUr den Datenaustausch ein Shared-Memory (3105) zwischen dem 
jeweiligen Prozessor und 3101 gewahlt. 

Figur 32 zeigt eine Schaltung die es den erf indungsgemaflen 
Speichereiementen ermdglicht gemeinsam auf einen Speicher Oder 
eine Gruppe yon Speichern zuzugreif en/ wcibei jeder einzelne. 
Speicher der Gruppe einzeln und eindeutig adressierbar ist. 
Dazu werden die einzeinen Speicherelemehte (3201) auf ein 
Bussystem geschaltet, bei dem jedes 3201 einen eigenen Bus 
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besitzt. Der Bus kann bidirektional augestaltet sein oder 
durch zwei unidirektionale Busse realisiert werden. Pro 
Speicher existiert ein Adress/Datenmultiplexer, der einen Bus 
zum Speicher durchschaltet. Dazu werden die anliegenden 
Adressen jedes Busses dekodiert (3207) und danach jeweils ein 
Bus pro Zeiteinheit durch einen Arbiter (3208) ausgewahlt 
(3204). Die entsprechenden Daten und Adressen werden auf den 
jeweiligen Speicherbus (3205a) ubertragen, wobei eine 
Zustandsaaschine (3206) die notwendigen Protokolle generiert. 
Treffen bei einer Leseanforderung die Daten vom Speicher ein, 
wird durch die jeweilige Zustandsnaschine die Adresse des 
Speichers auf den Bus geschaltet, der die Daten anfragte. Die 
Adressen ailer eingehenden Busse werden pro Bus des Bussystems 
3202 durch eine Multiplexereinheit ausgewertet und. auf den 
entsprechenden Bus ubertragen. Die Auswertung erfolgt 
entsprechend der Auswertung der Ausgangsdaten, d.h. ein 
Dekoder (3209) j e Eingangsbus (3205b) leitet ein signal auf 
einen Arbiter (3210), der den Daten-Multiplexer ansteuert. 
Damit werden pro Zeiteinheit unterschiedliche Eingangsbusse 
auf das Bussystem 3202 geleitet. 

In Figur 33 wird zur flexibleren und einfacheren Auswertung 
der Trigger- und RDY/ACK-Signale die starre Stateoachine / der 
starre Sequenzer 2910 durch einen frei programmierbaren (3301) 
ersetzt. Die vollstandige Funktion von 3301 wird durch die 
Konfigurationsregister 2913 vor der Ausfuhrung von Algorithmen 
durch die CT bestimmt. Das Laden von 3301 wird durch ein 
gegenuber 2911 urn die Verwaltung. von 3301 erweitertes CT- 
Interface (3302) gesteuert. Der Vorteil von 3301 liegt darin, 
dafl erheblich f lexibler mit den unterschiedli.chen Trigger- und 
RDY/ACK-Signalen umgegangen werden kann, als in f est 
inplementierten 2910. Nachteilhaft wirkt sich die Grofle eines 
von 3301 aus. 
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Ein Kompromifc der zu der hochsten Flexibility bei 
vertretbarer GrSfie fOhrt ist, die Trigger und RDY/ACK-Signale 
durch eine Einheit gemafl 3301 auszuwerten und samtliche festen 
Abiaufe innerhalb der PAE durch eine-fest implementierte 
Einheit nach 2910 zu steuern. 

Die erfindungsgemafie PAE zur Verarbeitung von logischen 
Funktionen ist in Figur 34 abgebildet. Kern der Einheit ist 
eine nachfolgend detaillierter beschriebene Einheit zum 
verknlipfen von einzelnen Signalen (3401) . Ober die Oblichen 
Register 2901, 2902, 2903, 2904 werden die Bussignale mit 3401 
verbunden. Die Register werden hierzu um einen Feed-Mode 
erweitert, der einzelne Signale selektiv ohne sie taktsynchron 
zu speichern (register) zwischen den Bussen und 3401 
austauscht. Der Multiplexer (3402) und die 

Konfigurationsregister (3403) werden an die unterschiedlichen 
Konfigurationen von 3401 angepaBt. Ebenso ist das CT-Interface 
(3404) entsprechend ausgestaltet . 

Figur 35 zeigt mfcgliche Ausgestaltungen von 3401. Ein globaler 
Datenbus verbindet die Logikzellen 3501 und 3502 mit den 
Registern 2901, 2902/ 2903,2904. Durch Busschalter, die als 
Multiplexer, Gatter, Transmissiongates Oder einfachen 
Transistoren ausgelegt sein kannen wird 3504 mit den 
Logikzellen verbunden. Die Logikzellen kOnnen entweder 
komplett einheitlich gestaltet sein, oder unterschiedliche 
Fuhktionalitat bes.it zen (3501, 3502). 3503 stellt einen RAM- 
Speigher dar. 

MBgliche Ausgstaltung der Logikzellen sind: 

- Lookup Tabellen 

- Logik 
-Multiplexer 
-Register 
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Die Auswahl der Funktionen und Vernetzung kann entweder 
flexibel programmierbar durch SRAM-Zellen erfolgen oder 
mittels unveranderlicher ROM oder semistatischer FlashROM 
Speicher. 

Zur Beschleunigung von sequentiellen Algorithmen, die schlecht 
parallelisiert werden konnen ist bei herkdmmlichen Prozessoren 
spekulative AusfUhrung bereits Stand der Technik. Die 
parallele Variante far VPUs ist in Figur 36 dargestellt. Die 
Operanden (3601) werden gleichzeitig an mehrere mtiglichen 
Pfade von Teilalgorithmen (3602a, 3602b, 3602c) gefUhrt. Die 
Teilagorithmen kttnnen dabei einen unterschiedlichen Flachen- 
und Zeitbedarf aufweisen. Jeweils nach den Teilalgorithmen 
werden die Daten erfindungsgemafi gespeichert (3612a, 3612b, 
3612c) , bevor sie nach einer Umkonf iguration von den nachsten 
Teilalgorithmen verarbeitet werden (3603) . Auch die 
Utakonfigurationszeitpunkte der einzelnen Teilalgorithmen sind 
voneinander unabhangig, ebenso die Zahl der Teilalgorithmen 
selbst (3603, 3614). Sobald entscheidbar ist, welcher der 
Pfade zu wahlen ist, werden die Pfade Uber einen Bus oder 
Multiplexer, zusammengeftthrt (3605) . Von einer Bedingung 
generierte Triggersignale (vgl. PACT08) (3606) bestimmen 
welcher der Pfade gewahlt und an die nachfolgenden Algorithmen 
weitergeleitet wird, 

Figur 37 zeigt den.Aufbau eines Hochsprachencompilers, der 

gewahnliche sequentielle Hochsprachen (C, Pascal, Java) auf 

ein VPU-System Ubersetzt.* Sequentieller Code (3711) wird von 

parallelem Code (37.08) getrennt, wodurch.3708 direkt in dem 

Array von PAEs veriarbeitet wird . 

FUr 3711 gibt es drei AusftihrungsmOglichkeiten: 

1. Innerhalb eines Sequenzers einer PAE (2910) 
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2. Mittels eines in die VPU konf igurierten Sequenzers. Der 
Compiler erzeugt hierzu einerseits einen auf die Aufgabe 
optimierten Sequenzer, andererseits direkt den 
algorithmenspezifischen Sequenzercode (vgi. 2801). 

3. Auf einem gewdhnlichen externen Prozessor (3103) 

Welche MGglichkeit gewahlt wird hangt von der Architektur der 
VPU, des Computersystems und des Algorithmus ab. 

Der Code (3701) wird zunachst in einem Praprozessor (3702) in 
Datenfluflcode (3716) (der in einer speziellen Version der 
jeweiligen Prograznmiersprache datenf lufloptimiert geschrieben 
wurde) und gewOhnlichen sequentiellen Code getrennt (3717). 
3717 wird auf parallelisierbare Teilalgorithmen untersucht 
(3703), die sequentiellen Teilalgorithmen werden ausgesondert 
(3718). Die parallelisierbaren Teilalgorithmen werden als 
Makros voriaufig plaziert und geroutet. 
In einem iterativen Prozess werden die Makros mit dem 
datenfluBoptimierten Code (3713) zusammen plaziert, geroutet 
und partitioniert (3705). Eine Statistik (3706) wertet die 
einzelnen Makros, sowie deren Partitionierung hinsichtlich der 
Effizienz aus, wobei die Umkonfigurationszeit und der Aufwand 
der Umkonfiguration in die Ef f izienzbetrachtung einflieAt. 
Ineffiziente Makros werden entfernt und als sequentieller Code 
ausgesondert (3714) » 

Der verbleibende parallele Code (3715) wird zusammen mit 3716 
compiliert und assembliert (3707) und VPU Objektcode 
ausgegeben (3708). 

Eine Statistik Uber die Effizienz des generierten Codes, sowie 
der einzelnen (auch der mit 3714:entfernten Makros) wird 
ausgegeben (3709), der Programmierer erhait. dadurch 
wesentliche Hinweise auf Geschwindigkeitsoptimierurigen des 
Programmes . • 
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Jedes Makro des verbleibenden sequentiellen Codes wird auf 
seine Komplexitat und Anforderungen untersucht (3720) . Aus 
einer Datenbank die von der VPU-Architektur und dem 
Computersystem abhangt (3719) wird der jeweils geeignete 
Sequenzer ausgewahlt und als VPU-Code (3721) ausgegeben. Ein 
Compiler (3721) generiert den Assemblercode des jeweiligen 
Makros fUrden jeweils von 3720 gewahlten Sequenzer und gibt 
ihn aus (3711) . Die 3710 und 3720 sind eng miteinander 
verknttpft. Gegebenenfalls veriauft die Abarbeitung iterativ urn 
den geeignetsten Sequenzer mit minimalsten und schnellsten 
Assemblercode zu finden. 

Ein Linker (3722) fafit die Assemblercodes (3708, 3711, 3721) 
zusammen und generiert den ausftlhrbaren Objektcode (3723) . 

Figur 38 zeigt den internen Aufbau von 2720. Kern der 
Schaltung ist ein ladbarer Up/Down-zahler (3801), der seinen 
Startwert von der Schaltung Fig. 27 von dem Bus 3803 
(entspricht 2703) Ober den entsprechend gesetzten Multiplexer 
3802 erhait. Der zahler dient als Programmzahler (PC) fttr den 
zugeordneten Sequenzer, der Startwert ist die erste Adresse 
des auszufUhrenden Programmes. Der Wert von 3801 wird Ober 
einen Addierer (3805) und 3802 auf den zahler zurUckgefUhrt . 
Ober den Bus 3804 wird von dem Sequenzer ein Offset an 3805 
gefilhrt, der entweder vom PC abgezogen oder hinzuaddiert wird. 
Damit sind relative SprUnge effizient implement ierbar. Per PC 
wird Uber den Bus 3811 an das PAE-Array herausgeflihrt und kann 
fUr call -Operationen auf dem Stack gespeichert werden. FUr 
ret-Operationen wird der PC Uber 3804 und 3802 vom Stack auf 
3801 geftihrt. .* 

Ober den Multiplexer 3806 wird entweder der . PC oder ein vom 
PAE-Array zugefUhrter Stackpointer (3807) auf einen Addierer 
(3808) gefUhrt.. Hier wird. ein Offset den Werten abgezogen oder 
hinzuaddiert,. der im Register 3809 gespeichert wird und Uber 
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3803 geschrieben wird. 3808 ermoglicht die Verschiebung des 
Programmes innerhalb des Speicher 2711. Dadurch werden 
Garbage-collector Funktionen zum Aufraumen des Speichers 
moglich (vgl. PACT10) . Die Adressverschiebung die durch den 
Garbage-collector auftritt wird durch eine Anpassung des 
Offsets in 3809 ausgeglichen. 

Figur 38a ist eine Variante von Figur 38 in der der 
Stackpointer (3820) ebenfalls integriert ist. Ober 3804 wird 
nur noch der Offset fur relative Sprunge an 3805 gefuhrt 
(3804a) . Der Stackpointer ist ein Up/Down-Zahler entsprechend 
3801, dessen Startwert der den Beginn des Stack reprasentiert, 
und Uber 3803 geladen wird. Der PC wird direkt an den Datenbus 
zum Speicher gefuhrt um Uber einen Multiplexer bei call- 
Operationen auf den Stack geschrieben zu werden, Der Datenbus 
des. Speichers wird uber 3821 und 3802 auf 3801 
zurUckgekoppelt, zur DurchfOhrung von ret-Operationen. 

Figur 39 verdeutlicht die Funktionsweise der Speicher. Der 
Speicher (3901) wird Uber einen Multiplexer (3902) adressiert. 
Im Standard-Modus, Lookup-Modus und Register Modus werden die 
Adressen aus dem Array (3903) direkt an 3901 gefuhrt. Im 
Stack-Modus und FIFO-Modus werden die Adressen in einem 
up/down-Zahler (3904) generiert. In diesem Fall werden die 
Adressen der IO-Seite von einem weiteren up/down-zahler (3905) 
zur Verfugung gestellt. Die Adressen fur den externen RAM 
(Oder 10) werden von einem weiteren up/down-Zahler (3906) 
generiert, die Basisadresse wird von einem Register (3907) 
geladen. Das Register wird von der CT Oder einem externen 
Host-Prozessor gesetzt. Die gesamte Steuerung ubernimmt eine 
Statemachine (3908) . Den Zustand des Speichers (voll, leer, 
halbvoll, etc) entnimmt 3908 einem up/down-Zahler (3909) der 
die Anzahl der im Speicher befindlicheh Worte . zahlt... Wird der- 
Speicher blockweise verandert IStack auf externen Stack 
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schreiben oder von externem Stack lesen) wird die GrOBe des 
Blocks als Konstante (3917) auf einen Addierer/Subtrahierer 

(3910) gegeben, auf den der zahlerstand von 3909 
zurtickgekoppelt ist. Das Ergebnis wird nach 3909 geladen. 
Damit lafit sich der zahlerstand schnell an blockweise 
Veranderungen anpassen. (Natttrlich ist es mSglich den Zahler 
auch mit jedem geschriebenen oder gelesenen Wort bei einer 
Blockoperation zu modifizieren) . FUr Cache-Operationen steht 
ein Cache-Kontroller (3911) nach dero Stand der Technik zur 
Verfttgung, dem ein Tag-Speicher (3912) zugeordnet ist. Je nach 
Betriebsart wird der Wert von 3911 oder 3906 Uber einen 
Multiplexer (3913) als Adresse nach auBen geftthrt (3914) . Ober 
den Bus 3915 werden die Daten nach auAen geftihrt und Ober den 
Bus 3916 werden die Daten mit dem Array ausgetauscht. 

Programmierbeispiele zur Verdeutlichung von Tailalqorithmen 
Ein Modul kann beispielsweise folgendermafien deklariert 
werden: 

module examplel 

input (varl, var2 : ty L ; var3 : ty 2 .) . 
output (resl, res2 : ty 3 ) „ 
begin 
• • • 

register <regnamel> (resl) . 
register <regname2> (res 2) . 
terminates (resl & res2; 1). 
end. 

module kennzeichnet den Beginn eines Modules, 
input/output definiert die Ein-/Ausgangsvariablen rait den 
Typen ty ft . • ■' 

begin ... end markieren den Rumpf des Modules. 
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register <regnamel/2> ubergibt das Ergebnis an den Output, 
wobei des Ergebnis in dem durch <regnamel/2> spezifizieften 
Register zwischengespeichert wird. <regnamel/2> ist dabei eine 
globale Referenz auf ein bestiramtes Register. 

Als weitere Obergabemodi an den Output stehen beispielsweise 
folgende Speicherarten zur VerfUgung: 

fifo <fifoname>, wobei die Da ten an einen nachdem FIFO- 
Prinzip arbeitenden Speicher tlbergeben werden. <fifoname> ist 
dabei eine globale Referenz auf einen bestimmten, im FIFO- 
Modus arbeitenden Speicher. terminates wird dabei urn den 
Parameter bzw. das Signal "fifofull" erweitert, der/das 
anzeigt, daft der Speicher voll ist. 

stack <stackname>/ wobei die Daten an einen nach dem Stack- 
Prinzip arbeitenden Speicher Ubergeben werden. <stackname> ist 
dabei eine globale Referenz auf einen bestimmten, im Stack- 
Modus arbeitenden Speicher. 

terminated unterscheidet die Programmierung entsprechend des 
erf indungsgem&flen Verfahrens von der herkSmmlichen 
sequentiellen Programmierung. Der Befehl definiert das 
Abbruchkriterium des Modules. Die Ergebnisvariablen resl und 
res2 werden von terminated nicht mit ihrem tatsSchlichen Wert 
evaluiert, statt dessen wird nur die GUltigkeit der Variablen 
(also deren Statussignal) geprtlft. Dazu werden die beiden 
Signale resl und res2 boolsch miteinander verkntlpft, z.B. 
durch eine UND-, ODER- oder XOR-Qperation. Sind beide 
Variablen gUltig, terminiert das Modul rait dem Wert 1. Das 
bedeutet, ein Signal mit dem Wert 1 wird an die Ubergeordneten 
. Ladeeinheit weitergeleitet, woraufhin die Ubergeordneten 
Ladeeinheit das: nachf olgende Module iadt. •''."!■ 
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module example2 

input {varl, var2 : ty 3 ; var3 : cy : ) . 

output (resl : ty 4 ) . 

begin 

register <regnamel> (varl, var2) • 
• • • 

fifo <fifonamel> (resl, 256) . . 
terminates (fifofull «f ifonamel» / 1). 
end. 

register wird in diesem Beispiel Uber input-Daten definiert. 
Dabei ist <regnamel> derselbe wie in examplel. Dies bewirkt, 
da* das Register, das die output-Daten in examplel aufnimmt, 
die input-Daten fttr example2 zur Verftigung stellt. 

fifo definiert einen FIFO-Speicher der Tiefe 256 fur die 
Ausgangsdaten resl. Das Full-Flag (fifofull) des FIFO- 
Speichers wird in terminates als Abbruchkriterium verwendet. 

module main 

input (inl, in2 : tyi; in3 : ty 2 ) . 

output (outl : ty 4 ) . 

begin 

define <regnamel> : register (234) . 
define <regname2> : register (26).. 

define <fifonamel> : fifo(256,4). // FIFO Tiefe 256 

• • • 

(varl2, var?2) = call . examplel (inl, in2, in3) . 

• • • 

(outl) = call example2 (varl2, var72, var243) . 
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signal (outl) . 
terminates (exaraple2) . 
end. 

define definiert eine Schnittstelle far Daten (Register, 
Speicher, etc) . Bei der Definition werden die erforderlichen 
Ressourcen, sowie die Bezeichnung der Schnittstelle angegeben. 
Da die Ressourcen jeweils nur einmal zur Verfttgung stehen, 
rottssen sie eindeutig angegeben werden. Damit ist die 
Definition global, d.h. die Bezeichnung gilt fttr das gesamte 
Programm. 

call ruft ein Modul als Unterprogranun auf. 

signal definiert ein Signal als Ausgangssignal, ohne dafl eine 
Zwischenspeicherung verwendet wird, 

Durch terminated (example2) wird das Modul main terminiert, 
sobald das Unterprogramm example2 terminiert. 

Durch die globale Declaration "define ist es prinzipiell 

nicht mehr notwendig, die so definierten input/output Signale 
in die Schnittstellen-Deklaration der Module auf zunehmen. . 
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Pa ten tanspruche 

1. Verfahren zur Programme erung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
der DatenfluBgraph und Kontrollf lufigraph eines Programms 
extrahiert wird. 

2. Verfahren nach Anspruch 1 dadurch gekennzeichnet, dafi 

die Graphen derart in mehrere Teilgraphen zerlegt werden, dafi 
moglichst wenig Verbindungen zwischen den Teilgraphen 
bestehen, 

3. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daB 

die Graphen derart in mehrere Teilgraphen zerlegt werden, dafi 
mbglichst wenig Daten zwischen den Teilgraphen Ubertragen 
werden . 

4. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daB 

die Graphen derart in mehrere Teilgraphen zerlegt werden, daB 
mcSglichst keine Rttckkoppelungen zwischen den Teilgraphen 
bestehen. 

5. Verfahren nach Anspruch 1 dadurch gekennzeichnet/ daB 

die Graphen derart in mehrere Teilgraphen zerlegt werden, dafi 
die Teilgraphen jeweils moglichst exakt den Ressourcen des 
Bausteines angepafit sind. 

6. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daB 
zwischen den Teilgraphen Speicherelemente zur Sicherung der 
Daten und Zustande eingefUhrt werden. 

7. Verfahren nach Anspruch 1 dadurch gekennzeichniet, daB 
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innerhalb eines Teilgraphen Statussignale zwischen den Knoten 
Ubertragen werden, die den Zustand jedes einzelnen Knotens 
jedem anderen Knoten soweit zur VerfUgung stellen. 

8. Verfahren nach Anspruch 1 und 7 dadurch gekennzeichnet, daB 
eine Menge von Statussignalen an eine ilbergeordnete Einheit, 
die die Konfiguration der Zellen steuert, gefUhrt wird, urn 
eine Umkonfiguration auszul&sen. 

9. Verfahren nach Anspruch 1 und 7 dadurch gekennzeichnet, daB 
eine Menge von Statussignalen an eine Ubergeordnete Einheit, 
die die Konfiguration der Zellen steuert, gefUhrt wird, urn 
einen Zustand an einen nicht in die Zellstruktur geladenen 
Teilgraphen zu Ubermitteln. 

10. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daB 
die Teilgraphen tiber mehrere Bausteine verteilt werden. 

11. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daB 
mehrere Pfade einer Anweisung, von denen je nach Auswertung 
der Anweisung (IF, CASE) immer exakt einer ausgeftihrt wird, 
derart zerlegt werden, daB jeder Pfad einen Teilgraph ergibt. 

12. Verfahren zur Programmierung von Bausteinen mit ein- Oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
jedem Datensignal ein Zustand zugeordnet wird, der anzeigt ob 
das Signal gUltig ist oder nicht (RDY) . 

13. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, . dadurch gekennzeichet, daB 
jedem Statussignal ein Zustand zugeordnet wird, der anzeigt ob 
das Signal gUltig ist oder nicht (RDY). 



-71/96 - 



WO 00/77652 



PCT/DEOO/01869 



14. Verfahren nach Anspruch 12 und 13 dadurch gekennzeichnet, 
dafl 

der Empfanger eines gultigen Signales den Empfang quittiert 
(ACK) . 

15. Verfahren nach Anspruch 12 und 13 dadurch gekennzeichnet, 
dafl 

der Empf anger .anzeigt, dafl er ein Signal erwartet (REQ) . 

16. Verfahren nach Anspruch 15 dadurch gekennzeichnet, dafl 
der Sender anzeigt das erwartete Signal zu senden. 

17. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet/ dafl 
ein erster Teil der Zellstruktur einen Teilgraphen berechnet, 
und dessen Berechnung schrittweise beendet; sobald eine oder 
mehrere Zellen die Berechnung beendet haben, diese als zweiter 
Teil der Zellstruktur umkonf iguriert werden, sodafl ein dritter 
Teil zeitgleich mit den neu konf igurierten Zellen den neuen 
Teilgraphen berechnen (Wafe-Reconf ig) . 

18. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafl 
mehrere Konfigurationsregister einer Zelle gleichzeitig 
verschiedene Konf igurationen verschiedener Teilgraphen 
speichern; 

19. Verfahren nach Anspruch 17 und 18 dadurch gekennzeichnet, 
dafl 

von mehreren Konf igurationen genaii eine Konf iguration aktiv 
ist. 

20. Verfahren nach Anspruch 17 und 18 dadurch. gekennzeichnet, 
dafl 
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nicht konfigurierte Konf igurationsregister besonders 
gekennzeichnet sind. 

21. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafl 
die jeweilige Konf iguration durch von der Zellstruktur 
generierte Statussignale ausgew&hlt wird.- 

22 . Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafl 
die jeweilige Konf iguration durch von einer Ubergeordneten 
Ladeeinheit generierte Statussignale ausgewahlt wird. 

23. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafl 
die jeweilige Konf iguration durch extern generierte 
Statussignale ausgew&hlt wird. 

24. Verfahren nach Anspruch 17 und 21 bis 23 dadurch 
gekennzeichnet, dafl 

jede Zelle einzeln entsprechend ihrer Konf iguration die 
Statussignale auswertet und die entsprechende Konf iguration 
aktiviert. 

25. Verfahren nach Anspruch 17 und 20 bis 24 dadurch 
gekennzeichnet, dafl 

bei der Aktivierung eines nicht konfigurierten 
Konfigurationsregisters die Konf iguration bei der 
Ubergeordneten Ladeeinheit angefordert wird und bis zum 
vollstandigen Laden der Konf iguration die Abarbeitung des 
Teilgraphen angehalten wird. 

26. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafl 
das Laden einer Konf iguration durch von der Zellstruktur 
generierte Statussignale ausgelOst wird. 

27. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafl 
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das Laden einer Konf iguration durch von iibergeordneten 
Ladeeinheit ausgeldst wird. 

28. Verfahren nach Anspruch 17 dadureh gekennzeichnet, daB 
das Laden einer Konfiguration durch extern generierte 
Statussignale ausgel5st wird. 

29. Verfahren nach Anspruch 17 und 26 bis 28 dadureh 
gekennzeichnet, daB 

jede Zelle einzeln entsprechend ihrer Konfiguration die 
Statussignale auswertet und das Laden der entsprechenden 
Konfiguration veraniafit. 

30. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadureh gekennzeichet, daB 

in den Zellen Sequenzer integriert sind, die die 
Konfigurationsregister adressieren und ein in den 
Konfigurationsregistern gespeichertes Programm ausftlhren. 

31. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadureh gekennzeichet, daB 

in den Zellen Sequenzer integriert sind, die einen der 
Zellstruktur zugeordneten Speicher adressieren und ein in dem 
Speicher abgelegtes Programm ausfUhr en. 

32. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadureh gekennzeichet, daB 
durch Zusammenschaitung mehrerer Zellen ein Sequenzer gebildet 
wird, der entsprechend des auszufUhrenden Programmes 
ausgestaltet ist. 

33. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadureh gekennzeichet, dafl 
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ein externen Prozessor zur Ausftihrung von sequentiellen 
Teilgraphen an den Baustein gekoppelt ist. 

34. Verfahren nach Anspruch 33 dadureh gekennzeichnet, daB 
das die Ubergeordnete Ladeeinheic zusatzlich als Prozessor zur 
Ausftihrung von sequentiellen Teilgraphen verwendet wird. 

35. Verfahren nach Anspruch 30 bis 34 dadureh gekennzeichnet, 
daB 

die Sequenzer Zugrif f auf die Datenregister der einzelnen 
Zellen haben. 

35. Verfahren nach Anspruch 30 bis 34 dadureh gekennzeichnet, 
daB 

zu dem Sequenzer die Ubrigen Teilgraphen entsprechend ihrer 
jeweiligen Ausgestaltung konfiguriert werden. 

36. Verfahren nach Anspruch 30 bis 35 dadureh gekennzeichnet, 
daB 

zu dem Sequenzer die Ubrigen Teilgraphen entsprechend ihrer 
jeweiligen Ausgestaltung umkonfiguriert werden. 

37. Verfahren nach Anspruch 30 bis 34 dadureh gekennzeichnet, 
daB 

zu dem Sequenzer Standardrechenwerke konfiguriert werden, die 
dem CISC-Modell entsprechen. 

38. Verfahren nach Anspruch 30 bis 34 und 37 dadureh 
gekennzeichnet, daB 

vom Compiler entsprechende Befehle zur Ansteuerung der 
Standardrechenwerke generiert werden und dabei mehrere 
Teilgraphen auf ein. Standardrechenwerk abgebildet werden. 
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39. Verfahren nach Anspruch 30 bis 34 und 37 bis 38 dadurch 
gekennzei chine t, dafi 

vom Compiler entsprechende Befehle zur externen Vernetzung der 
Standardrechenwerke generiert werden"und dabei mehrere 
Teilgraphen auf ein Standardrechenwerk abgebildet werden. 

40. Verfahren nach Anspruch 30 bis 34 und 37 bis 38 dadurch 
gekennzeichnet, dafi 

vom Compiler entsprechende Befehle zur internen Vernetzung der 
Standardrechenwerke generiert werden und dabei mehrere 
Teilgraphen auf ein Standardrechenwerk abgebildet werden. 

41. Verfahren nach Anspruch 30 bis 34 und 37 bis 40 dadurch 
gekennzeichnet/ dafi 

die Befehle zyklisch, durch einem Programmzahler bestimmt/ 
geladen werden. 

42. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet/ 
dafi 

der Sequenzer seine Operanden auf einem Stack verwaltet und 
einen Stackprozessor darstellt. 

43. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet/ 
dafi 

der Sequenzer seine Operanden in einem Akkumulator verwaltet 
und. einen Akkumulatorprozessor darstellt. 

44. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet, 
dafi 

der Sequenzer seine Operanden. in einem Registersatz verwaltet 
und einen Registerprozessor darstellt. 
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45. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet, 
dafi 

der Sequenzer seine Operanden in einem Speicher verwaltet und 
einen Load/Store-Prozessor darstelltr 

46. Verfahren nach Anspruch 30 bis 34 und 42 bis 45 dadurch 
gekennzeichnet, dafi 

der Sequenzer unterschiedliche zur AusfUhrung des Programmes 
geeignete Verfahren gleichzeitig implementiert hat. 

47. Verfahren nach Anspruch 30 bis 34 und 42 bis 46 dadurch 
gekennzeichnet/ dafi 

mehrere unterschiedlich ausgestaltete Sequenzer gleichzeitig 
in die Zellstruktur konfiguriert sind. 

48. Verfahren zur Prograimaierung von Bausteinen mit ein- Oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 

im Programm vorkommende Zeiger derart umsortiert werden, dafi 
sie die grSfitmdgliche zeitliche Unabhangigkeit aufweisen, also 
mfcglichst viele nicht von einem Zeiger abhangige Befehle 
zwischen zwei Zeigern liegen. 

49. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 

im Programm vorkommende Zeiger derart umsortiert werden, dafi 
die durch den Zeiger referenzierten Daten mbglichst weit 
hinter der Berechnung des Zeigers verwendet werden. 

50. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch. gekennzeichet, dafi 
bei SprUngen und Vergleichen alle mttglichen Teilgraphen 
solange gleichzeitig in die Zellstruktur konfiguriert und 
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berechnet werden,. bis bekannt ist, welcher Teilgraph der durch 
den Sprung oder Vergleich gewahlte ist. 

51. Verfahren nach Anspruch 50 dadurch gekennzeichnet, dafl 
die Da ten und Zustande samtlicher nicht gewahlter Teilgraphen 
ignoriert werden, und nur die Daten und Zustande des gewahlten 
Teilgraphen weiterverarbeitet werden . 

52, Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafl 
der Zellstruktur einer oder mehrere Speicher zugeordnet sihd. 

53* Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafl 
der Speicher beliebig frei adressiert wird (Random Access) 

54. Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafl 
der Speicher als Lookup Tabelle verwendet wird. 

55. Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafl 
der Speicher als FIFO zur Entkoppelung von Patens trbmen 
verwendet wird. 

56. Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafl 
der Speicher als Stack fUr einen Sequenzer verwendet wird. 

.57. Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafl 
der Speicher als Regis terbank fUr einen Sequenzer verwendet 
wird. 

58. Verfahren nach Anspruch 52 bis 54 und 56 bis 57 dadurch 
gekennzeichnet, dafl 

der Speicher einen Ausschnitt des externen Speichers 
darstellt. 
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59. Verfahren nach Anspruch 52 bis 53 dadurch gekennzeichnet, 
dafi 

der Speicher als Cache ftlr den externen Speicher arbeitet. 

60. Verfahren nach Anspruch 52 dadurch gekennzeichnet, 
der Speicher durch ein Signal von der Zellstruktur in den 
externen Speicher geschrieben wird. 

61. Verfahren nach Anspruch 52 dadurch gekennzeichnet, 
der Speicher durch ein Signal von der Ubergeordneten 
Ladeeinheit in den externen Speicher geschrieben wird. 

62. Verfahren nach Anspruch 52 dadurch gekennzeichnet, 
der Speicher durch ein Signal von der Zellstruktur aus dem 
externen Speicher gelesen wird. 

63. Verfahren nach Anspruch 52 dadurch gekennzeichnet, 
der Speicher durch ein Signal von der Ubergeordneten 
Ladeeinheit aus dem externen Speicher gelesen wird, 

64. Verfahren nach Anspruch 52 und 60 bis 63 dadurch 
gekennzeichnet, 

die Basisadresse im externen Speicher frei von der 
Zellstruktur gesetzt wird. 

65. Verfahren nach Anspruch 52 und 60 bis 63 dadurch 
gekennzeichnet, 

die Basisadresse im externen Speicher frei von der 
Ubergeordneten Ladeeinheit gesetzt wird. 

66. Verfahren nach Anspruch 52 und 60 bis 63 dadurch 
gekennzeichnet, 
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die Basisadresse im externen Speicher frei von einer externen 
Einheit gesetzt wird. 

66. Verfahren nach Anspruch 52, 57 urtd 60 bis 66 dadurch 
gekennzeichnet, 

dafi durch das Schreiben und Lesen der Registerbank in/aus dem 
externen Speicher eine Umschaitung von einem Teilgraphen zu 
einem anderen (Kontextswitch mit Push/Pop) ausgeftlhrt wird. 

67. Verfahren nach Anspruch 52 und 56 dadurch gekennzeichnet, 
dafi 

der Stack grtifier als der Speicher ist, indem Teile des Stacks 
auf den externen Speicher ausgelagert werden. 

68. Verfahren zur Programmierung von Bausteinen mit ein- Oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Ubergeordneten Ladeeinheiten hierarchisch aufgebaut sind. 

69. Verfahren nach Anspruch 68 dadurch gekennzeichnet/ dafi 
auf jeder Hierarchieebene unterschiedliche Teile des 

Konf igurationsprogrammes gespeichert und/oder abgearbeitet 
werden. 

.70. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Ubergeordneten Ladeeinheiten breite Speicher zur schnellen 
Obertragung der Konfigurationsdaten aufweisen. 

71. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur/ dadurch gekennzeichet, dafi 
die Speicherbreite fttr die Sequenzer Ubergeordneten 
Ladeeinheiten Uber Multiplexer verringert wird. 



- 80 / 96 - 



WO 00/77652 



PCT/DE00/O1869 



72. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Ubergeordneten Ladeeinheiten einen Befehl zum blockweisen 
Ubertragen der Konf igurationsdaten atrfweisen. 

73. Verfahren nach Anspruch 72 dadurch gekennzeichnet, dafi 
der Befehl zum blockweisen Ubertragen der Konfigurationsdaten 
nach dem DMA-Prinzip iroplementiert .ist. 

74. Verfahren nach Anspruch 72 dadurch gekennzeichnet, dafi 
auf den Speicher fur die Konfigurationsdaten gleichzeitig und 
unabhangig vom restlichen Speicher zugegriffen wird. 

75. Verfahren nach Anspruch 72 dadurch gekennzeichnet, dafi 
mehrere Einheiten zum blockweisen Ubertragen der 
Konfigurationsdaten existieren. 

76. Verfahren nach Anspruch 72 und 75 dadurch gekennzeichnet, 
dafi 

gleichzeitig unabhangige Zugriffe auf die Speicher fUr die 
Konfigurationsdaten der einzelnen Einheiten erfolgen. 

77. Verfahren nach Anspruch 72 dadurch gekennzeichnet, dafi 
- der Befehl beim konf igurieren einer nicht konfigurierbaren 

Zelle abbricht. 

78. Verfahren nach Anspruch 72 und 77 dadurch gekennzeichnet, 
dafi 

der Befehl die Adresse der Konfigurationsdaten der nicht 
konfigurierbaren Zelle speichert. 

79. Verfahren nach Anspruch 72 und 77 bis 78 dadurch 
gekennzeichnet, dafi 

- 81 / 96 - 



WO 00/77652 



PCT/DEOO/01869 



der Befehl bei einer erneuten AusfUhrung an der Stelle der 
Konfigurationsdaten der nicht konf igurierten Zelle 
weiterarbeitet. 

80. Verfahren nach Anspruch 72 und 77 bis 79 dadurch 
gekennzeichnet, dafi 

der Befehl nur dann erneut ausgefUhrt wird, wenn eine Zelle 
nicht konfiguriert werden konnte. 

81. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die tibergeordneten Ladeeinheiten Konf igurationen in ihre 
internen Speicher laden, bevor diese abgerufen werden. 

82. Verfahren nach Anspruch 81 dadurch gekennzeichnet, dafi 
das Laden durch einen Befehl ausgefUhrt wird. 

83. Verfahren nach Anspruch 81 dadurch gekennzeichnet, dafi 
das Laden durch ein Statussignal angestofien wird. 

84. Verfahren zur Programmierung von Bausteinen mit ein- pder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
Konf igurationen zu Gruppen zusammengefafit werden. 

85. Verfahren nach Anspruch 84 dadurch gekennzeichnet, dafi 
eine Gruppe durch ihfen Aufruf verandert personalisiert wird. 

86 : . Verfahren nach Anspruch 84 bis 85 dadurch gekennzeichnet,. 
dafi 

die Gruppen und deren Personalisierung auf tibergeordneten 
Ladeeinheiten niederer Hierarchie gespeichert werden. 
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87. Verfahren nach Anspruch 84 bis 86 dadurch gekennzeichnet, 
dafi 

die Aufrufe der Gruppen auf Ubergeordneten Ladeeinheiten 
hfcherer Hierarchie gespeichert werden. 

88. Verfahren nach Anspruch 84 bis 87 dadurch gekennzeichnet, 
daB 

Programme aus einer Mehrzahl derartiger Aufrufe bestehen. 

89. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
Konfigurationen. und Befehlssequenzen von Sequenzern in den 
Ubergeordneten Ladeeineiten gespeichert werden. 

90. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
Befehlssequenzen von Sequenzern in den internen und/oder 
extemen Speichern enthalten sind. 

91. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
zwischen den internen Zustanden der Sequenzer und den 
Zust&nden der Datenverarbeitung unterschieden wird. 

92. Verfahren nach Anspruch 91 dadurch gekennzeichnet, daB 
die Zustande der Datenverarbeitung mit den Daten in der 
Zellstruktur mitgef Uhrt werden . 

93. Verfahren nach Anspruch 91 bis 92 dadurch gekennzeichnet, 
dafi 

die Zustande der Datenverarbeitung mit den Daten gesichert 
werden. 
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94. Verfahren nach Anspruch 91 bis 93 dadurch gekennzeichnet, 
daB 

die Zustande der Datenverarbeitung mit jedem gespeicherten 
Datenwort gesichert werden. 

95. Verfahren nach Anspruch 91 bis 93 dadurch gekennzeichnet/ 
dafi 

die Zustande der Datenverarbeitung mit dem letzten 
gespeicherten Datenwort vor einer Urakonf iguration gesichert 
werden. 

96. Verfahren zur Programmi erung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Adresse des/der zuletzt bearbeiteten Operanden vor einer 
Umkonf iguration gesichert wird. 

97* Verfahren nach Anspruch 96 dadurch gekennzeichnet, daB 
die 2ustande der Datenverarbeitung des letzte Operanden vor 
einer Umkonf iguration gesichert werden. 

98. Verfahren nach Anspruch 91 dadurch gekennzeichnet, daB 
die internen Zustande der Sequenzer nicht gesichert werden. 

99. Verfahren zum Compilieren von Programmen far Bausteine mit 
ein- oder mehrdimensionaler Zellstruktur, dadurch 
gekennzeichet, dafi 

vier Arten von Kode unterschieden werden: 

a) Paralleler Code 

b) Effizient parallelisierbarer Code 

c) Nicht effizient parallelisierbarer Code 

d) Sequentieller Code 
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100. Verfahren nach Anspruch 99 dadurch gekennzeichnet, da£ 
der parallele Code von extrahiert wird. 

101. Verfahren nach Anspruch 99 bis 100 dadurch 
gekennzeichnet/ dafl 

der extrahierte Code plaziert und geroutet wird. 

• 102. Verfahren nach Anspruch 99 bis 101 dadurch 
gekennzeichnet, dafl 

die Partitionierung iterativ mit Plazierung und Routing 
durchgefUhrt wird. 

103. Verfahren nach Anspruch 99 dadurch gekennzeichnet, dafi 
der parallelisierbare Code extrahiert wird. 

104. Verfahren nach Anspruch 99 und 103 dadurch 
gekennzeichnet, da& 

der extrahierte Code plaziert und geroutet wird. 

105. Verfahren nach Anspruch 99 und 103 bis 104 dadurch 
gekennzeichnet/ dafl 

die Partitionierung iterativ mit Plazierung und Routing 
durchgefUhrt wird. 

106. Verfahren nach Anspruch 99 und 103 bis 105 dadurch 
gekennzeichnet, dafi 

jeder Code auf seine Effizienz hin analysiert wird und die 
Codes separiert werden, die nicht effizient arbeiten. 

107. Verfahren nach Anspruch 99 und. 103 bis 106 dadurch 
gekennzeichnet/ dafi 
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eine Statistik erstellt wird, welche Codes effizient und 
welche ineffizient sind und dem Programmierer entsprechende 
Hinweise auf die effizientere Programmierung gegeben werden. 

108. Verfahren nach Anspruch 99 und 106 dadurch 
gekennzeichnet, daB 

der sequentielle und separierte Code analysiert wird und ftlr 
jeden einzelnen Code ein geeigneter Sequenzer gew&hlt wird; 
wobei 

a) eine Menge von moglichen Sequenzern in einer Datenbank 
vorgegeben werden 

b) gegebenenfalls nur ein Sequenzer zur VerfUgung steht 
(Prozessor) 

109. Verfahren nach Anspruch 108 dadurch gekennzeichnet, daB 
der Code ftlr den entsprechenden gewahlten Sequenzer Ubersetzt 
wird. 

110. Verfahren nach Anspruch 108 und 109 dadurch 
gekennzeichnet, daB 

das Auswahlen eines Sequenzers und die Obersetzung iterativ 
veriauft, indem jede Obersetzung auf ihre Effizienz hin 
analysiert wird und der Sequenzer gewahlt wird, dessen 
Obersetzter Code ef f izienteste ist. 

111. Verfahren nach Anspruch 99 bis 111 dadurch 
gekennzeichnet, daB 

die Ubersetzten Codes und partitionierten Codes von einem 
Linker zusammengefaBt werden und die notwendige 
Kommunikationsstruktur eingefUgt wird. 

112. Verfahren nach Anspruch 111 dadurch gekennzeichnet, daB 
der Linker notwendige Speicher einfllgt. 

- 86 / 96 - 



WO 00/77652 



PCT/DE00/01869 



113. Verfahren nach Anspruch 111 und 112 dadurch 
gekennzeichnet, dafi 

der Linker Strukturen zur Sicherung der internen Zustande der 
Zellstruktur einftigt. 

H4. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
ein Oder mehrere Speicher direkt an die Zellstruktur 
angeschlossen sind. 

115. Verfahren nach Anspruch 114 dadurch gekennzeichnet/ dafi 
auf den Speicher wortweise addressierbar zugegriffen wird. 

116. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafl 
der Speicher als Lookup-Tabelle arbeitet. 

117. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
der Speicher als Stack fttr einen Sequenzer arbeitet. 

118. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
der Speicher als Registersatz fur einen Sequenzer arbeitet. 

119. Verfahren nach Anspruch 114 bis 118 dadurch 
gekennzeichnet, dafi 

dem Speicher eine Schnittstelle zur Peripherie oder externem 
Speicher zugeordnet oder integriert ist. 

120. Verfahren nach Anspruch 114 und 119 dadurch 
gekennzeichnet, dafi 

der Speicher nach den FIFO-Prinzip arbeitet und somit 
DatenstrGme in der Zellstruktur von externen DatenstrOmen 
entkoppelt. 
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121. Verfahren nach Anspruch 114 und 119 dadurch 
gekennzeichnet, daB 

der Speicher als Cache zwischen der Zellstruktur und dem 
externen Speicher arbeitet. 

122. Verfahren nach Anspruch 114 bis 121 dadurch 
gekennzeichnet, daB 

der Speicher Code fUr einen im Zellarray implementierten 
Sequenzer speichert. 

122. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafl 
mehrere Speicher auf einen gemeinsamen peripheren Bus 
zugreifen. 

123. Verfahren nach Anspruch 114 und 122 dadurch 
gekennzeichnet, daB 

ein Arbiter immer genau einen Speicher je gemeinsamen Bus 
auswahlt und diesen Uber einen Multiplexer auf den Bus 
aufschaltet. 

124. Verfahren nach Anspruch 114 dadurch gekennzeichnet, daB 
ein Statussignal das Schreiben des Inhaltes des Speichers auf 
den externen Speicher bewirkt. 

125. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafl 
ein Statussignal das Lesen des Inhaltes des Speichers von dem 
externen Speicher bewirkt. 

126. Verfahren nach Anspruch 114. und 124 bis 125 dadurch 
gekennzeichnet, dafl 

die Basisadresse des externen Speichers in einero Register 
gespeichert ist. 
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127. Verfahren nach Anspruch 114 und 124 bis. 126 dadurch 
gekennzeichnet/ dafi 

das Register von der Zellstruktur gesetzt wird. 

128. Verfahren nach Anspruch 114 und 124 bis 126 dadurch 
gekennzeichnet, dafi 

das Register von der Ubergeordneten Ladeeinheit gesetzt wird. 

129. Verfahren nach Anspruch 114 und 124 bis 126 dadurch 
gekennzeichnet, dafl 

das Register von der Peripherie gesetzt wird. 

130. Verfahren nach Anspruch 117 dadurch gekennzeichnet, da* 
der Stack eine variable GrOfie aufweist, indem der externe 
Speicher zur Vergrafierung des Stacks verwendet wird. 

131. Verfahren nach Anspruch 117 und 130 dadurch 
gekennzeichnet^ dafi 

vor einem Stackuberlauf der alteste Teil des Stacks auf den 
Stack im externen Speicher geschrieben wird. 

132. Verfahren nach Anspruch 117 und 130 dadurch 
gekennzeichnet, dafi 

vor einem Stackunterlauf der jtingste teil des Stacks von dem 
Stack im externen Speicher gelesen wird. 

133. Verfahren nach Anspruch il4 dadurch gekennzeichnet/ dafi 
der Speicher durch Statussignale'seiheh Status angibt. 

134. Verfahren nach Anspruch 114 und 121 dadurch 
gekennzeichnet/ da£ . . 
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dem Speicher ein TAG-Speicher fUr die Cache- Funk tion 
zugeordnet ist. 

135. Verfahren nach Anspruch 114 und- 119 dadurch 
gekennzeichnet, dafl 

das Interface zur Peripherie mit der Schnittstelle zum 
Zellstruktur synchronisiert ist. 

136. Verfahren nach Anspruch 114 und 119 dadurch 
gekennzeichnet, dafl 

dem Interface zur Peripherie eine Einheit zur Oberwachung der 
Adressen zugeordnet ist. 

137. Verfahren nach Anspruch il4 und 119 dadurch 
gekennzeichnet, dafl 

dem Interface zur Peripherie eine Einheit zur Ubersetzung der 
Adressen zugeordnet ist. 

138. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafl 
der Speicher als Ringspeicher aufgebaut ist.. 

139. Verfahren nach Anspruch 114 und 119 und 138 dadurch 
gekennzeichnet, dafl 

. die Zellstruktur und- die Peripherie jeweils e.inen 
: Positionsze'iger besitzen. 

140. Verfahren nach Anspruch 114 und 138 dadurch 
gekennzeichnet/ dafl ^ 

ein Register die Menge an Eintragen im Speicher angibt. 

141. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler. Zellstruktur, dadurch gekennzeichet,. dafl 
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der Status einer Zelle an beliebige anciere Zellen 
weitergeleitet wird. 

142. Verfahren zuin Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
eine Zelle mehrere Konf igurationsregister besitzt. 

143. Verfahren nach Anspruch 142 dadurch gekennzeichnet, dafi 
genau eines der Konfigurationsregister zur Laufzeit ausgewahlt 
wird. 

144. Verfahren nach Anspruch 142 bis 143 dadurch 
gekennzeichnet, dafi 

die Auswahl durch ein Statussignal innerhalb der Zellstruktur 
erfolgt. 

145. Verfahren nach Anspruch 142 bis 143 dadurch 
gekennzeichnet, dafi 

die Auswahl durch ein Statussignal der Zelle erfolgt. 

146. Verfahren nach Anspruch 142 bis 143 dadurch 
gekennzeichnet, dafi 

die Auswahl durch ein Signal von der ubergeordneten 
Ladeeinheit erfolgt. 

147. Verfahren zum Betrieb von Bausteinen mit ein- Oder 
mehrdimensionaler Zellstruktur/ dadurch gekennzeichet, dafi 
ein Sequencer in der Zelle integriert ist. 

148 . Verfahren nach Anspruch 142 und 147 dadurch. 
gekennzeichnet, dafi 

ein. in der .Zelle imjplementierter Seguenzer das : 
Konfigurationsregister auswahl t. 
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149. Verfahren nach Anspruch 142 und 147 dadurch 
gekennzeichnet, dafi 

der Sequenzer das Konfigurationswort ~als Befehl auswertet. 

150. Verfahren nach Anspruch 147 dadurch gekennzeichnet, dafi 
der Sequenzer auf Statussignale der Zellstruktur reagiert. 

151. Verfahren nach Anspruch 147 dadurch gekennzeichnet, dafi 
der Sequenzer auf Statussignale der Zelle reagiert. 

152. Verfahren zum Betrieb von Bausteinen mit ein- Oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
eine Zelle als Akkumulator-Prozessor arbeitet. 

153. Verfahren nach Anspruch 152 dadurch gekennzeichnet, dafi 
das ein Akkumulator in der Zelle integriert ist. 

154. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
eine Zelle als Register-Prozessor arbeitet. 

155. Verfahren nach Anspruch 154 dadurch gekennzeichnet, dafi 
das ein Registersatz in der Zelle integriert ist. 

156. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler. Zellstruktur, dadurch gekennzeichet, dafi 
eine Zelle als Stack-Prozessor arbeitet. 

157. Verfahren. nach Anspruch 156. dadurch gekennzeichnet, dafi 
das der Stack in einem der Zeilstruktur zugeordnetero Speicher 

;.- IntegriertastVv ■ ■:• 
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158. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
eine Gruppe von Zellen einen Akkumulator-Prozessor bilden. 

159. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafl 
eine Gruppie von Zellen einen Stack- Prozessor bilden. 

160. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
eine Gruppe von Zellen einen Register-Prozessor bilden. 

161. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
eine Gruppe von Zellen einen Load/Store-Prozessor bilden. 

162. Verfahren nach Anspruch 158 bis 161 dadurch 
gekennzeichnet, dafl 

der Gruppe ein der Zellstruktur zugeordneter Speicher 
zugeordnet ist.. 

163. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafl 
auf die Datenregister der Zellen von der Ubergeordneten 
Ladeeinheit zugegriffen wird. 

164.. Verfahren zum Betrieb. von Bausteinen mit ein- Oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, : daB 
auf die Datenregister der. Zellen-von einem Ubergeordneten 

' Prozessor zugegriffen wird. 

165. Verfahren zum Betrieb von Bausteinen mit iain- oder 

. mehrdimensionaler Zellstruktur, dadurch gekennzeichet; daB 
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auf die Datenregister der Zellen von einer anderen als 
Prozessor konf igurierten Zelle zugegriffen wird. 

166. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
auf die Datenregister der Zellen von anderen als Prozessor 
konfigurierten Zellen zugegriffen wird. 

167. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
ein Registersatz in einer Zelle implementiert ist. 

168. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Eingangsregister der Zelle mit FIFOs versehen sind. 

169. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Ausgangsregister der Zelle mit FIFOs versehen sind. 

170. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Zelle mit einem der Zellstruktur zugeordnetem Speicher 
derart gekoppelt werden kann, dafi die Codes fUr den in der 
Zelle implementierten Sequenzer aus dem gekoppelten Speicher 
geladen werden. 

171 . Verfahren zum Betrieb yon Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur,. dadurch gekennzeichet , dafl 
die Zelle mit dem Speicher einer libergeordneten Ladeeinheit 

! derart gekoppelt werden kann, dafi die Codes fur den in der 
; Zelle in^lementierten Sei^enz der : 
foergeordneten ; :Ladiseixiheit geladen werden. 
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Schnelle Ubertragung von Konfigurationsdaten durch breite 
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Seite 2 von 2 



INTERNATIONAi ft RECHERCHENBERICHT 

Angaben ai Verflff ertffichungen, die an seiben PatenKamite geWren 



Im Rechsrchenbericht 


J Datum der 


Mitg5ed(er) der 




Datum der 


angefuhrtes Patemdokument 


Veroffentlichung 




Patenttamilie 




Veratfentlichung 


DE 19651075 A 


10-06-1998 


AO 


5651498 


A 


03-07-1998 






CN 


1247613 


A 


15-03-2000 






WO 


9826356 


A 


18-06-1998 






DE 


19781412 


0 


28-10-1999 






EP 


0943129 


A 


22-09-1999 



Internationales Aktenzeichen 

PCT/DE 00/01869 



FormCtett PCTASA/210 (Anhang PalentlamUieXJUi 1992) 



